找回密码
 立即注册
搜索

自然言语(NLP)发展史及相关体系

自然言语处理是计算机迷信范畴与人工智能范畴中的一个重要方向。它研讨能完成人与计算机之间用自然言语停止有效通讯的各种实际和方法。自然言语处理是一门融言语学、计算机迷信、数学于一体的迷信。




自然言语发展史(NLP)

(1) 初创期(1947 ~ 1970):计算机问世(1946)的第二年,英国工程师布斯(A.D.Booth)和美国工程师威弗(W.Weaver)最早提出了应用计算机停止自动翻译。第一代机器翻译系统设计上的粗糙所带来的翻译质量的低劣,最终导致了一些人对机器翻译的研讨得到决计。有些人甚至错误地以为机器翻译追求全自动质量目的是不能够完成的。标志着机器翻译的研讨就此堕入低谷。

(2) 复苏期(1970 ~ 1976):虽然机器翻译的研讨困难重重,但是法国、日本、加拿大等国照旧坚持机器翻译的研讨。在20 世纪70 年代初期,机器翻译又出现了复苏的场面。机器翻译的研讨者逐渐看法到机器翻译过程本身必须保持原语和译语在语义上的分歧,一个好的机器翻译系统应该把原语的语义准确无误地在译语中表现出来。于是,语义分析在机器翻译中越来越遭到注重。

(3) 繁荣期(1976 ~至今):繁荣期最突出的特点是机器翻译研讨走上了适用化的道路,出现了一大批适用化的机器翻译系统,机器翻译产品末尾进入市场,逐渐由适用化步入商业化。第二代机器翻译系统以基于转换的方法为代表,普遍采用以句法分析为主、语义分析为辅的基于规则的方法,采用由笼统的转换表示的分层次完成策略。

相关体系




1、句法语义分析:针对目的句子,停止各种句法分析,如分词、词性标记、命名实体辨认及链接、句法分析、语义角色辨认和多义词消歧等。

关键字提取:抽取目的文本中的次要信息,比如从一条旧事中抽取关键信息。次要是了解是谁、何时、何地、对谁、做了何事、产生了什么结果。触及实体辨认、工夫抽取、因果关系抽取等技术。

2、文本发掘:次要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对发掘的信息和知识的可视化、交互式的呈现界面。

3、机器翻译:将输入的源言语文本经过自动翻译转化为另一种言语的文本。机器翻译从最早的基于规则到二十年前的基于统计的方法,再到明天的基于深度学习(编解码)的方法,逐渐构成了一套比较严谨的方法体系。

4、信息检索:对大规模文档停止索引。可简单对文档中的词汇,赋予不同的权重来建立索引,也可以运用算法来建立更深层的索引。查询时,首先对输入停止分析,然后在索引外面查找婚配的候选文档,再根据一个排序机制把候选文档排序,最后输入排序得分最高的文档。




5、问答系统:针对某个自然言语表达的成绩,由问答系统给出一个精准的答案。需求对自然言语查询语句停止语义分析,包括实体链接、关系辨认,构成逻辑表达式,然后到知识库中查找能够的候选答案并经过排序机制输入最佳答案。

6、对话系统:系统经过多回合对话,跟用户停止聊天、回答、完成某项义务,次要触及用户意图辨认、通用聊天引擎、问答引擎、对话管理系统等技术。此外,为了提现上下文相关,要具有多轮对话才能。同时,为了提现个性化,对话系统还需求基于用户画像做个性化回复。

7、语料库:语料库中存放的是在言语的实践运用中真实出现过的言语材料;语料库是以电子计算机为载体承载言语知识的基础资源;真实语料需求经过加工(分析和处理),才能成为有用的资源。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评1

都市精英 2019-4-17 08:21:10 显示全部楼层
那个啥吧。。。就是这个。。。你知道我要说啥吧。。。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies