找回密码
 立即注册
搜索

自然言语处理已到中级 大规模语料库提供强有力手腕

近年来,脑迷信与类脑智能曾经成为世界各国研讨的热点。记者从近日在天津召开的“类脑智能创新论坛”上获悉,我国也即将启动“中国脑计划”。自然言语处理技术是各种“脑计划”的核心技术之一,将来“中国脑计划”的构建也离不开中白话语处理核心技术的打破。

自然言语处理已到中级阶段

“简单来说,‘自然言语处理’就是让计算机可以像人一样运用言语文字。”山东大学文学与旧事传播学院教授盛玉麒引见。“自然言语处理的基本义务是处理人机交互中触及的各种技术成绩。”中国社会迷信院言语研讨所研讨员李爱军告诉记者,自然言语处理包括对文本信息的处理以及对语音信息的处理。

盛玉麒将自然言语处理研讨与运用分为三个阶段:初级阶段的自然言语处理次要处理言语文字的输入、输入、存储、传输、显示、打印、编辑、检索等功能;中级阶段的自然言语处理就是让机用具有一定的智能,可以自动辨认自然言语指令,按照指令完成信息检索、数据提取、查询、不同言语的自动翻译等;高级阶段就是智能化处理,速度、容量和正确率都可以达到接近人的程度。

目前学界和业界曾经完成初级阶段的义务,中级阶段也获得了一些关键性打破,诸如电子词典、快译通、机器翻译等,表现了相关技术的产品化。盛玉麒谈到,不过,全体来看这些技术运用的正确率还不理想,自然言语处理的中级阶段还处在攻关过程中,离高级阶段的真正智能化目的还有较远间隔。

规则与统计相结合破解自然言语处理难题

如何才能让计算机像人类一样运用言语文字?杭州师范大学钱江学者讲座教授冯志伟研讨自然言语处理已50多年,他表示,“为了使理想的自然言语成为可以由计算机直接处理的对象,我们都需求建立言语的‘方式模型’,使之能以一定的数学方式,严密而规整地表示出来,建立自然言语的‘计算模型’,使之可以在计算机上完成。”

李爱军告诉记者,完成自然言语处理要克制一系列难题,比如单语分析义务中言语的歧义性,远间隔相关性,动态性,随意性以及多语义务中的语序差异性,语义集合的差异性,表达习气差异性等。

就汉语而言,在歧义性方面,汉语的词形变化较少,语义的确定更多地依赖上下文及场景关系;而在随意性方面,汉语的语法结构更为灵敏多变。“由于汉语的言语特征,学界在中文自然言语处理中面临更多难题。”多年来从事汉语自然言语处理的盛玉麒对此深有体会,汉语的自动分词、词性标注、规则提取、规则描写、歧义消解等方面是中文自然言语处理重要瓶颈。

基于这些难题,自然言语处理的研讨历经从基于规则到基于统计、进而规则与统计相结合的发展过程。“早期为了配合基于规则的方法而建设的大量知识库为自然言语处理研讨打下了很好的基础。但基于规则的方法难以覆盖大量的变体和顺应疾速的变化,由此兴起了基于统计方法的言语建模。”李爱军告诉记者。

盛玉麒强调说,基于规则与基于统计相结合的道路,成为自然言语处理范畴的共识。

亟须汉言语文字学界的参与

基于语料库的知识发掘、数据提取已成为智能化信息处理的领跑者,实际和技术也渐趋成熟。冯志伟表示,大规模语料库的建立为自然言语处理提供了强有力手腕。

近年来,我国以多种基金项目加大对自然言语处理,特别是对多数民族言语处理的投入,展开对互联网环境中白话语信息处理严重基础实际和运用研讨。李爱军引见说,这些研讨次要包括互联网环境中白话语感知与表示实际研讨;面向复杂环境的多言语辨认方法与关键技术等。其中,中国社会迷信院语音与言语迷信重点实验室承担了国家973计划“互联网环境中白话语信息处理与深度计算的基础实际和方法项目”中“互联网环境中白话语行为规律和篇章结构研讨”子课题,曾经成功构建互联网中白话语信息的表示体系和大规模多模态口语语篇库。

针对中文自然言语处理目前存在不尽善尽美的状况,盛玉麒以为,次要缘由是计算机信息处理与汉言语文字学的结合不够,汉言语文字学界对于自然言语处理的关注、参与远远不够。“计算机专家需求汉言语学研讨者的配合,将言语学家的知识、方法和思绪转化为自然言语处理的数据库、知识库、方法库和规则库。”
回复

使用道具 举报

大神点评3

楼猪V5啊
回复

使用道具 举报

床上小桌 2019-8-18 10:27:06 显示全部楼层
我觉得不错,太厉害了
回复

使用道具 举报

peng杰痴 2019-8-19 11:57:09 显示全部楼层
我也是坐沙发的
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies