门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
智能技术
›
自然语言
›
智能制造:自然语言处理
返回列表
智能制造:自然语言处理
[复制链接]
linda80
2018-10-14 21:43:32
显示全部楼层
|
阅读模式
邱老师解读本期内容
摘要 :本期月刊主要就人工智能中的自然语言处理进行讲解,从自然语言处理的概念、自然语言处理难点、自然语言处理的技术、自然语言处理的发展历史、自然语言处理的趋势以及自然语言处理的工具包等方面进行入门的介绍。
1、人工智能与自然语言处理
自然语言处理(Natural Language Processing,NLP)是人工智能和语言学领域的分支学科,主要是研究如何让计算机处理及运用自然语言。自然语言处理广义分为两大部分:
自然语言理解(Natural Language Understanding,NLU):是指让电脑“懂”人类的语言;
自然语言生成(NaturalLanguage Generation,NLG):是指把计算机数据转化为自然语言。
2、自然语言处理的难点
在自然语言处理的各个阶段广泛大量地存在着形形色色的歧义问题,这是自然语言与人工语言的根本差别之一,也是自然语言处理的难点所在。
1)词法分析歧义
•分词
严守一把手机关了
严守/ 一把手/ 机关/ 了
严守一/ 把/ 手机/ 关/ 了
•词性标注
我/pro 计划/v 考/v 研/n
我/pro 完成/v 了/aux 计划/n
•命名实体识别
秦兵坑杀赵军40万于长平
2)语法分析歧义
咬死了猎人的狗
那只狼咬死了猎人的狗
咬死了猎人的狗失踪了
3)语义分析歧义
At last, a computer that understands you like your mother.
含义1:计算机会象你的母亲那样很好地理解你(的语言)
含义2:计算机理解你喜欢你的母亲
含义3:计算机会象很好地理解你的母亲那样理解你
4)语用分析歧义
“你真坏”至少有如下三种理解:
当人们对干了坏事的成年人说时,是一种严厉的斥责
当妈妈对淘气的儿子说时,实际表达的是对儿子的一种疼爱
当恋爱中的女孩对男友说这句话时,则是女孩在男友面前撒娇的一种表现
3、自然语言处理技术概览
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。
自然语言处理技术可以通过下面这张图较好的展示。
4、自然语言处理的发展历史
最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额费用,但人们当时显然是低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要参考某句话前后的意思。
大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:
(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。
(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。
同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也得到了重视和加强。
(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。
(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。
5、自然语言处理的发展趋势
第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方
法来获取语言知识。
第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。
第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇
知识库的建造成为了普遍关注的问题。
6、FudanNLP 简介
FudanNLP 主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0 许可证。FudanNLP 是基于Java 的开源项目,利用统计机器学习和规则方法来处理中文自然语言处理的经典问题,比如:分词、词性标注、句法分析、实体名识别等。
1)组织结构
FudanNLP 的组织结构可分为5 层,如图1.1所示。
1. 最底层的操作。比如数据结构、数据表示、数据类型、数据预处理、特征转换等。
2. 结构化机器学习和人工规则框架。涉及到特征抽取,学习算法、推理算法和模型建立等。
3. 可插拔的具体算法。比如分类、聚类、半监督和优化等。
4. 中文自然语言处理应用,比如分词、句法分析等。
5. 系统应用,比如文本分类、主题词抽取等。
2)FudanNLP 总体流程
FudanNLP 项目大概结构组织如下:
本文供稿
|一汽-大众学院 技术培训科 邱志龙
详细内容可在“创享学堂”的资料中心中阅读下载本期
《新技术跟踪》
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
linda80
金牌会员
0
关注
0
粉丝
100
帖子
Ta的主页
发布
发消息
加好友
最近发表
新品无人机亮相,有好多款
2024无人机热点回眸 | 科技导报
智能大型无人机首次亮相,增强作战保障,一千公里可高效投送
新车 | 天神之眼C+无人机,承载式车身/纯电SUV,方程豹钛3实车曝
延庆警方查处一起无人机“黑飞”违法违规案件,一男子被罚
外媒关注:中国新型无人机彩虹-9公开试飞
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们