找回密码
 立即注册
搜索

关于自然语言的一个小科普请接收!

20世纪,全世界对自然语言处理的研究都陷入了一个误区。当时,学术界对人工智能和自然语言理解的普遍认为:要让机器完成翻译或者语言识别等只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机拥有类似我们人类这样的智能。(今天几乎所有的科学家都不再坚持这一点,而很多门外汉还误以为计算机是靠类似我们人类的这种智能解决了上述问题。)

为什么会有这样的认识?是因为人类就是这么做的,道理就这么简单。对于人类来讲,一个能把英语翻译成汉语的人,必定能很好地理解这两种语言。这就是直觉的作用。在人工智能领域,包括自然语言处理领域,后来把这样的方法论称作“飞鸟派”,也就是看着鸟是怎么飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。

事实上我们知道,怀特兄弟发明飞机靠的是空气动力学而不是仿生学。不要笑话我们前辈来自于直觉的天真想法,这是人类认识的普遍规律。今天,机器翻译和语言识别已经做的不错,并且有上亿人使用过,但是这个领域之外的大部分人依然错误地以为这两种应用是靠计算机理解了自然语言才实现的。事实上,它们全部靠得是数学,更准确地说是靠统计。

在20世纪60年代,摆在科学家面前的问题时怎样才能理解自然语言,当时普遍的认识是首先要做好两件事,即分析语句和获取语义。这实际上优势惯性思维的结果:它受到传统语言学研究的影响。学习西方语言,都要学习语法规则、词性和构词法等。当然,应该承认这些规则是我们人类学习语言的好工具,而恰恰这些语法规则又很容易用计算机的算法描述,这就更坚定了大家对基于规则的自然语言处理的信心。

对于语义的研究和分析,相比较而言要不系统得多。语义也比语法更难在计算机中表达出来,因此直到20世纪70年代,这方面的工作仍然乏善可陈。由于语义对于我们开解自然语言是不可或缺的,因此各国政府把很大比例研究经费提供给“句法分析”相关研究的同时,也把一部分钱给了语义分析和知识表示等课题。

举个例子:我们学习英语时,无论在中学和大学英语考试成绩多么好,也未必能考好GRE,更谈不上看懂英文电影。原因就是我们即使学了10年的英语语法,也不能涵盖全部的英语。而且即使能够写出涵盖所有自然语言现象的语法规则集合,也很难用计算机来解析。自然语言在演变过程中,产生了词义和上下文相关的特性,因此,它的文法是比较复杂的上下文有关的文法。

在上个世纪70年代,基于规则的句法分析(包括文法分析或者语义分析)很快就走到了尽头。从20世纪80年代末至今的25年里,随着计算能力的提高和数据量的不断增进,过去看似不可能通过统计模型完成的任务,渐渐都变得可能了,包括很复杂的句法分析。到20世纪90年代末期,发现通过统计得到的句法规则甚至比语言学家总结的更有说服力。

因此今天,自然语言处理的研究从单纯的句法分析和语义理解,变成了非常贴近实际应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识的获取等等。

选自吴军的《数学之美》,文中有的理解的不到位,会不断修改的,请见谅



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

围观 围观 沙发在哪里!!!
回复

使用道具 举报

是爷们的娘们的都帮顶!大力支持
回复

使用道具 举报

呵呵。。。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies