智客公社

标题: 智能制造:自然语言处理 [打印本页]

作者: linda80    时间: 2018-10-14 21:43
标题: 智能制造:自然语言处理
[attach]51806[/attach]邱老师解读本期内容
摘要 :本期月刊主要就人工智能中的自然语言处理进行讲解,从自然语言处理的概念、自然语言处理难点、自然语言处理的技术、自然语言处理的发展历史、自然语言处理的趋势以及自然语言处理的工具包等方面进行入门的介绍。
[attach]51807[/attach] 1、人工智能与自然语言处理
自然语言处理(Natural Language Processing,NLP)是人工智能和语言学领域的分支学科,主要是研究如何让计算机处理及运用自然语言。自然语言处理广义分为两大部分:

自然语言理解(Natural Language Understanding,NLU):是指让电脑“懂”人类的语言;
自然语言生成(NaturalLanguage Generation,NLG):是指把计算机数据转化为自然语言。
[attach]51808[/attach]

2、自然语言处理的难点
在自然语言处理的各个阶段广泛大量地存在着形形色色的歧义问题,这是自然语言与人工语言的根本差别之一,也是自然语言处理的难点所在。
1)词法分析歧义
 •分词
严守一把手机关了
严守/ 一把手/ 机关/ 了
严守一/ 把/ 手机/ 关/ 了
•词性标注
我/pro 计划/v 考/v 研/n
我/pro 完成/v 了/aux 计划/n
•命名实体识别
秦兵坑杀赵军40万于长平
2)语法分析歧义
咬死了猎人的狗
那只狼咬死了猎人的狗
咬死了猎人的狗失踪了
3)语义分析歧义
At last, a computer that understands you like your mother.
含义1:计算机会象你的母亲那样很好地理解你(的语言)
含义2:计算机理解你喜欢你的母亲
含义3:计算机会象很好地理解你的母亲那样理解你
4)语用分析歧义
“你真坏”至少有如下三种理解:
当人们对干了坏事的成年人说时,是一种严厉的斥责
当妈妈对淘气的儿子说时,实际表达的是对儿子的一种疼爱
当恋爱中的女孩对男友说这句话时,则是女孩在男友面前撒娇的一种表现


3、自然语言处理技术概览
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。
自然语言处理技术可以通过下面这张图较好的展示。
[attach]51809[/attach]4、自然语言处理的发展历史
最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额费用,但人们当时显然是低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要参考某句话前后的意思。
大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:
(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。
(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。
同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也得到了重视和加强。
(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。
(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。
5、自然语言处理的发展趋势
       第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
  第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方
法来获取语言知识。
  第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。
  第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇
知识库的建造成为了普遍关注的问题。


6、FudanNLP 简介
FudanNLP 主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0 许可证。FudanNLP 是基于Java 的开源项目,利用统计机器学习和规则方法来处理中文自然语言处理的经典问题,比如:分词、词性标注、句法分析、实体名识别等。

1)组织结构
FudanNLP 的组织结构可分为5 层,如图1.1所示。
1. 最底层的操作。比如数据结构、数据表示、数据类型、数据预处理、特征转换等。
2. 结构化机器学习和人工规则框架。涉及到特征抽取,学习算法、推理算法和模型建立等。
3. 可插拔的具体算法。比如分类、聚类、半监督和优化等。
4. 中文自然语言处理应用,比如分词、句法分析等。
5. 系统应用,比如文本分类、主题词抽取等。
[attach]51810[/attach]2)FudanNLP 总体流程
FudanNLP 项目大概结构组织如下:
[attach]51811[/attach]

本文供稿 |一汽-大众学院 技术培训科  邱志龙


详细内容可在“创享学堂”的资料中心中阅读下载本期

《新技术跟踪》





欢迎光临 智客公社 (https://bbs.cnaiplus.com/) Powered by Discuz! X3.5