找回密码
 立即注册
搜索

自然言语处理 NLP 发展简史


从言语结构化实际基础,到 1750 亿参数的 GPT-3。一部 NLP 的百年发展史。
言语的结构化

20 世纪初,在瑞士的日内瓦大学,一位名叫费迪南德·德·索绪尔( Ferdinand de Saussure) 的言语学教授发明了一种将言语描画为“系统”的方法。




索绪尔教授以为,意义是在言语外部、言语各部分之间的关​​系和差异中创造的,“在词里,重要的不是声响本身,而是使这个词区别于其他一切词的声响上的区别,由于带有意义的也正是这些差别。" 他提出,“意义”产生于言语之间的关系和对比,而共享言语系统则使交流成为能够。

索绪尔将社会视为一个“共享”的规范体系,为合理的、可扩展的思想提供了条件,从而导致个人产生不同的决议和举动。

遗憾的是,索绪尔教授的实际还未发表,就于 1913 年逝世。而他的两个先生阿尔伯特·薛施霭(Albert Sechehaye)和沙尔·巴利(Charles Bally)看法到了这项研讨的重要性,搜集了教授生前留下的手稿以及其他同窗的笔记,编辑整理出了《通用言语学》一书,并于 1916 年出版。

该书奠定了后来的基础结构主义的方法论,成为古代言语学以及结构主义言语学的开山之作,索绪尔教授也因此被后人称为古代言语学之父。而他留下的结构化实际,对言语学以外的范畴异样影响深远,也为几十年后出现的结构化编程言语与人工智能技术打下了实际基础。
人工智能的兴起

1950 年,计算机迷信之父阿兰·图灵(Alan Turing)发表了一篇划时代的论文,文中预言了创造出具有真正智能的机器的能够性。由于留意到“智能”这一概念难以确切定义,他提出了著名的 “图灵测试”:假如一台机器可以与人类展开对话(经过电传设备),且不能被参与测试的 30% 以上的人类裁判辨别出其机器身份,那么则称这台机用具有人类智能。

紧接着在 1952 年,生物学家阿兰·霍奇金(Alan Hodgkin)和安德鲁·赫克斯利(Andrew Huxley)开发了一个数学模型来解释章鱼巨型轴突中神经细胞的行为,霍奇金-赫克斯利模型展现了人类的大脑如何应用神经元构成网络,初次将人类大脑的工作原理具象化地展如今世人面前。

这一系列颠覆性的研讨成果在学术界引发惊动,激发了人工智能(AI)的思潮,同时也催生了自然言语处理(NLP)和计算机技术的发展。
NLP 的早期实际基础

人们最早对 NLP 的探求始于对机器翻译的研讨。1947年,美国迷信家韦弗(W. Weaver)博士和英国工程师布斯(A. D. Booth)提出了应用计算机停止言语自动翻译的想象,机器翻译(Machine Translation)从此步入历史舞台。

1957 年,麻省理工学院的言语学教授诺姆·乔姆斯基(Noam Chomsky)在他出版的《句法结构》一书中,革新了言语的概念,提出 “要使计算机了解言语,就必须更改句子的结构。” 以此为目的,乔姆斯基创建了一种语法,称为“阶段结构语法”,该语法可以有条不紊地将自然言语句子翻译为计算机可以运用的格式。

1958 年夏天,异样来自麻省理工学院的人工智能研讨先驱约翰·麦卡锡(John McCarthy)参与 IBM 资讯研讨部的工作,研讨符号运算及运用需求。但 IBM 旗下的 Fortran 表处理言语却未能支持符号运算的递归、条件表达式、动态存储分配及隐式回收等功能。于是麦卡锡带领由 MIT 先生组成的团队开发了一门全新的表处理言语 LISP,赋予了编程言语更强的数学计算才能。LISP 言语后来也被称为人工智能的“母语”,成为早期人工智能研讨人员的编程言语。

1964 年,首个自然言语对话程序 ELIZA 诞生,该程序是由麻省理工学院人工智能实验室的德裔计算机迷信家约瑟夫·维岑鲍姆 (Joseph Weizenbaum)运用一种名为 MAD-SLIP 的类 LISP 言语编写,运转在 MIT 实验室中 36 位的分时系统 IBM 7094 (早期的晶体管大型计算机)上。

由于当时的计算才能有限,ELIZA 只是经过重新陈列句子并遵照相对简单的语法规则来完成与人类的简单交流。用户经过电动打字机和打印机与程序停止远程交互,当用户键入一个句子并按 Enter 键时,音讯被发送到服务端系统,ELIZA 扫描邮件中能否存在关键字,并在新句子中运用该关键字以构成呼应,前往打印给用户。这种对话方式,给人的印象是计算机可以了解对话,又不必为对话提供任何新内容,仅用 200 行代码就产生了了解和参与的错觉。




在这一时期,虽然有了一定的实际基础以及像 Eliza 这样的初级产品,但在历时近 12 年并耗资近 2000 万美元后,机器翻译的成本还是远高于人工翻译,并且照旧没有任何计算机可以真正完成基本的对话。于是在 1966 年,美国国家研讨委员会(NRC)和自动言语处理咨询委员会(ALPAC)中止了对自然言语处理和机器翻译相关项目的资金支持, AI 和 NLP 的发展因此堕入停滞。此时,许多学者以为人工智能和自然言语处理的研讨进入了死胡同。人类早期结合言语学与统计学对 AI/NLP 的初步探求以失败告终。
NLP 的回归

直到 1980 年,在美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习研讨在全世界的重新兴起。在某种程度下去说,长达 14 年的真空期也让 NLP 界有工夫冷静上去寻求新的打破。于是,早期的机器翻译概念被推翻,新的思想促进了新的研讨。

早期的自然言语处理研讨中,很盛行言语学和统计学的混合,大多数 NLP 系统都运用复杂的“手写”逻辑规则。而如今,这一理念被纯粹的统计学所取代。20 世纪 80 年代,得益于计算才能的波动增长以及机器学习的发展,研讨人员末尾对 AI 和 NLP 停止根本性的重新定位,用简单的近似法取代了深化的分析法,评价过程也变得愈加量化。

经过一些波折后,一种前馈神经网络模型 MLP 由伟博斯在 1981 年的神经网络反向传播(BP)算法中详细提出。当然 BP 照旧是明天神经网络架构的关键要素。有了这些新思想,神经网络的研讨又加快了。1985 -1986 年,一些神经网络研讨学者先后提出了 MLP 与 BP 训练相结合的理念。

随后,一个非常著名的 ML 算法由罗斯·昆兰(Ross Quinlan) 在 1986 年提出,我们称之为决策树算法,更准确的说是 ID3 算法。这是另一个主流机器学习的重要里程碑。与黑盒神经网络模型截然不同的是,决策树 ID3 算法也被作为一个软件,经过运用简单的规则和明晰的参考可以找到更多的理想生活中的运用状况。

决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉途径则代表的某个能够的属性值,而每个叶结点则对应从根节点到该叶节点所阅历的途径所表示的对象的值。决策树仅有单一输入,若欲有复数输入,可以建立独立的决策树以处理不同输入。中决策树是一种常常要用到的技术,可以用于分析数据,异样也可以用来作预测。

在 90 年代,随着互联网的出现,用于自然言语过程分析的统计模型迅速普及。纯粹的统计学 NLP 方法在线上文本的宏大流量方面已变得非常有价值。n 元模型(n-gram)在数字辨认和跟踪大量的言语数据方面也曾经变得非常有用。

言语模型简单来说就是一串词序列的概率分布。详细来说,言语模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的能够性。在实际中,假如文本的长度较长,P(wi | w1, w2, . . . , wi−1)的估算会非常困难。因此,研讨者们提出运用一个简化模型:n元模型(n-gram model)。在 n 元模型中估算条件概率时,只需求对当前词的前 n-1 个词停止计算。在 n 元模型中,传统的方法普通采用频率计数的比例来估算 n 元条件概率。当 n 较大时,机会存在数据稀疏成绩,导致估算结果不准确。因此,在百万词级别的语料中,普通也就用到三元模型。

为了缓解 n 元模型估算概率时遇到的数据稀疏成绩,研讨者们提出了神经网络言语模型。1997 年,LSTM 递归神经网络(RNN)模型被引入,并在 2007 年找到了语音和文本处理的利基市场。目前,神经网络模型被以为是 NLP 对文本和语音生成了解的最前沿研讨。

2001年,法国 AI 专家约书亚·本吉奥(Yoshio Bengio)发表了一篇论文,提出了一种全新的言语神经网络模型。该模型运用前馈神经网络描画了一种不运用衔接来构成循环的人工神经网络。在这种类型的网络中,数据仅在一个方向上移动,从输入节点到任何隐藏节点,再到输入节点。前馈神经网络没有循环,与递归神经网络有很大不同。

本吉奥带来的全新思绪启示了之后的很多基于神经网络的 NLP 学术研讨,在工业界也得到了广泛运用,助力了 NLP 的运用在将来几年的加速落地。此外,还有梯度消逝(gradient vanishing)的细致分析,word2vec 的雏形,以及如今完成的机器翻译技术都有本吉奥的贡献。
当代 NLP 研讨

经过长期的发展,自然言语处理(NLP)被人们系统地定义为人工智能中的一门分支学科。除了机器翻译与人机交互不测,NLP 还包含以下高级功能的研讨:
    内容分类:言语文档摘要,包括内容警报,反复检测,搜索和索引。主题发现和建模:捕获文本集合的主题和含义,并对文本停止高级分析。上下文提取:自动从基于文本的源中提取结构化数据。心情分析:辨认存储在大量文本中的总体心情或客观意见,用于意见发掘。文本到语音和语音到文本的转换: 将语音命令转换为文本,反之亦然。文档摘要:自动创建摘要,紧缩大量文本。机器翻译:自动将一种言语的文本或语音翻译成另一种言语。

在 2011 年,苹果公司的 Siri 成为世界上第一个成功被普通消费者运用的 NLP / AI 助手之一。在Siri 中,自动语音辨认模块将一切的单词转换为数字解释的概念。然后,语音命令系统会将这些概念与预定义的命令停止婚配,从而启动特定的操作。例如,假如 Siri 问:“您想听一下您的余额吗?” 它会了解你将要回答的“是”或“否”,并采取相应的举动。

经过运用机器学习技术,一切者的口语形式不必与预定义的表达式完全婚配。对于 NLP 系统来说,声响必须合理地接近才能正确翻译含义。经过运用反馈循环,NLP 引擎可以显着提高其翻译的准确性,并添加系统的词汇量。训练有素的系统会了解“我在哪里可以得到大数据的协助?”这样的字眼。“我在哪里可以找到大数据专家?”或“我需求大数据方面的协助”,并提供适当的答复。

对话管理器与 NLP 的组合,使开发一个可以真正与人类对话的系统成为能够。2014 年 6 月 8 日,一个名为尤金·古斯特曼(Eugene Goostman)的电脑聊天程序成功让参与测试的 33% 人类裁判置信它是一个 13 岁的男孩,成为有史以来首台经过图灵测试的计算机。



NLP 的将来

近年来,在 NLP 范畴中,运用言语模型预训练方法在多项 NLP 义务上都获得了打破性停顿,广泛遭到了各界的关注。

前文提到,目前神经网络在停止训练的时分基本都是基于后向传播(BP)算法,经过对网络模型参数停止随机初始化,然后经过 BP 算法应用例如 SGD 这样的优化算法去优化模型参数。那么预训练的思想就是,该模型的参数不再是随机初始化,而是先有一个义务停止训练得到一套模型参数,然后用这套参数对模型停止初始化,再停止训练。即经过在大量的语料上预训练言语模型,然后再将预训练好的模型迁移到详细的下游 NLP 义务,从而提高模型的才能。

得益于目前硬件算力的提升,预训练言语模型的参数规模呈指数倍增长。其中,GPT 模型是 OpenAI 在 2018 年提出的一种新的 ELMo 算法模型,该模型在预训练模型的基础上,只需求做一些微调即可直接迁移到各种 NLP 义务中,因此具有很强的迁移才能。2019 年推出的 GPT-2 拥有 15 亿参数,到了 2020 年推出的 GPT-3 曾经拥有惊人的 1750 亿参数,不只能轻松经过图灵测试,还能完成包括写代码在内的大部分 NLP 义务。

神经网络之父、图灵奖获得者杰弗里·辛顿(Geoffrey Hinton)表示,“ 鉴于 GPT-3 在将来的惊人前景,可以得出结论:生命、宇宙和万物的答案,就只是 4.398 万亿个参数而已。” 这一观点也引发了人们的广泛讨论,被以为是对 NLP 发展止境的预言。当将来人类的算力不断打破极限时,包含全人类文明的 GPT-N 能否会是 NLP 的终点呢?

参考链接:https://www.dataversity.net/author/keith-foote/

文章来自 OSCHINA 社区 [http://www.oschina.net]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

愤怒蝴蝶 2020-8-16 05:42:47 显示全部楼层
分享了
回复

使用道具 举报

feihu_ 2020-8-17 16:02:11 来自手机 显示全部楼层
这么强,支持楼主,佩服
回复

使用道具 举报

有没有什么需要注意的?
回复

使用道具 举报

xiaoli187 2020-8-18 18:14:14 显示全部楼层
结束了嘛?有种还没完成的感觉,嘻嘻
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies