请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

自然言语处理时,通常的文本清算流程是什么?



自然言语处理文本清算流程,次要分为二步:

1.文本预处理,我们的文本基本都是网络文本,次要是网页html的方式,网页中存在很多不必要的信息,比如说一些广告、导航栏,html、JS代码,注释等等,无用的价值信息,可以合理的清算掉,假如需求注释提取,可以应用标签用途、标签密度断定、数据发掘思想、视觉网页块分析技术等等策略抽取出注释。

2.文本流的言语学处理,次要分为3小步:

1.分词经过文本预处理,我们会得到干净的文本,文本中起到关键作用的是一些词,甚至次要词就能起到决议文本取向。

2.词性标注,可以运用词性标注,经过很多分词工具分出来的会出现一个词,外加该词的词性,比如说啊是语气助词。

3.去除停用词,经过下面的步骤,我们曾经把一切的词停止了分类。但是这些一切的词,并不都是我们所需求的,比如说句号,显然,句号对意思的表达没有什么效果。还有”是“、”的“等词,也没有什么效果。由于这些词在一切的文章中都大量存在,并不能反应出文本的意思,可以清算掉。

自然言语作为人类表达和交流思想最基本的工具,在人类社会活动中四处存在,假如计算机可以了解、处理自然言语,必将是人机交流的一大打破,在自然言语处理中,一定要知道计算机了解言语的难点。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

day打铁男 2019-1-24 12:19:27 显示全部楼层
自然言语处理时,通常的文本清算流程是什么
回复

使用道具 举报

@Xizi_MZoDWffA 2019-1-24 12:24:54 显示全部楼层
分享了
回复

使用道具 举报

曦遥ABC 2019-1-24 17:52:39 来自手机 显示全部楼层
强烈关注楼主~请继续!
回复

使用道具 举报

Lx纸巾 2019-1-25 07:41:02 来自手机 显示全部楼层
路过的帮顶
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies