智客公社

标题: 自然言语处理时,通常的文本清算流程是什么? [打印本页]

作者: 再来一瓶    时间: 2019-1-24 12:09
标题: 自然言语处理时,通常的文本清算流程是什么?
[attach]100069[/attach]

自然言语处理文本清算流程,次要分为二步:

1.文本预处理,我们的文本基本都是网络文本,次要是网页html的方式,网页中存在很多不必要的信息,比如说一些广告、导航栏,html、JS代码,注释等等,无用的价值信息,可以合理的清算掉,假如需求注释提取,可以应用标签用途、标签密度断定、数据发掘思想、视觉网页块分析技术等等策略抽取出注释。

2.文本流的言语学处理,次要分为3小步:

1.分词经过文本预处理,我们会得到干净的文本,文本中起到关键作用的是一些词,甚至次要词就能起到决议文本取向。

2.词性标注,可以运用词性标注,经过很多分词工具分出来的会出现一个词,外加该词的词性,比如说啊是语气助词。

3.去除停用词,经过下面的步骤,我们曾经把一切的词停止了分类。但是这些一切的词,并不都是我们所需求的,比如说句号,显然,句号对意思的表达没有什么效果。还有”是“、”的“等词,也没有什么效果。由于这些词在一切的文章中都大量存在,并不能反应出文本的意思,可以清算掉。

自然言语作为人类表达和交流思想最基本的工具,在人类社会活动中四处存在,假如计算机可以了解、处理自然言语,必将是人机交流的一大打破,在自然言语处理中,一定要知道计算机了解言语的难点。

作者: day打铁男    时间: 2019-1-24 12:19
自然言语处理时,通常的文本清算流程是什么
作者: @Xizi_MZoDWffA    时间: 2019-1-24 12:24
分享了
作者: 曦遥ABC    时间: 2019-1-24 17:52
强烈关注楼主~请继续!
作者: Lx纸巾    时间: 2019-1-25 07:41
路过的帮顶




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4