找回密码
 立即注册
搜索

科普自然语言处理





导读






自然语言是什么

自然语言通常是指一种自然地随文化演化的语言。例如,汉语、英语、日语为自然语言的例子,这一种用法可见于自然语言处理一词中。自然语言是人类交流和思维的主要工具。
以上是百度百科对自然语言的释义。语言是信息的载体,如同数字、文字、图像、视频等一样,它们的目的都是为了记录和传播信息。


文字的发展历史

语言和文字有着密不可分的关系,文字是伴随着语言的产生而产生的,文字的发展经过了一段非常久的历程:

距今5000多年前,古埃及人发明了最早的信息保存的方式--用图形表示事物,大英博物馆保存的《亚尼的死者之书》就是智慧的古埃及人绘画图形描述了当时的文明,当时他们的象形文字已经达到了5000个左右。



公元前3400年左右,楔形文字雏形产生,多为图像,由古苏美尔人所创,文字数目由青铜时代早期的约1000个,减至青铜时代后期约400个。已被发现的楔形文字多写于泥板上,少数写于石头、金属或蜡板上。



拼音文字由腓尼基人美索不达米亚带到地中海东岸的叙利亚。他们在楔形字母基础上,将它简化为22个字母。随着腓尼基人商团经爱琴海诸岛,传给了希腊人的祖先,伴随马基顿人以及几个世纪后罗马人的扩展,这种语言成为了欧亚非大陆语言体系的主体。





中国汉字也是由象形文字演变而来,与拼音文字是不同的分支,和拼音文字不同,汉字是表意,而拼音文字是表音,他们都是人类文化的结晶。



自然语言处理是什么

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
简单来说自然语言处理(NLP)就是研究计算机与人类用自然语言交流的科学,是涉及多个领域的交叉学科。自然语言处理又分为自然语言理解(NLU)自然语言生成(NLG),前者是计算机能够理解人类自然语言的意思,后者是计算机能用自然语言来表达意图和思想。
自然语言处理的发展历程




自然语言的发展历程是曲折的,总体的发展趋势是从规则到统计,从统计到深度学习的过程。模糊的分为四个阶段:1.?-1956年(萌芽阶段) 2.1956-1970年(快速发展阶段) 3.1971 -1993年(低谷阶段) 4.1994年至今(复苏阶段)

1.萌芽阶段(?-1956年):
这个阶段人类的语言、数学、物理学等各个领域都得到了充分发展,为计算机诞生做了充足的条件,也为自然语言处理理论提供了很多基础。阿兰·图灵在1936年首次提出了图灵机的概念,使得电子计算机在1946年诞生,也为自然语言处理的提供了必要的条件。史蒂芬·科尔·克莱尼(Stephone Cole Kleene)在有限自动机和正则表达式方面的工作,对计算语言学和理论计算机科学有很大的贡献。香农(Shannon)的信息熵概念引用到语言处理的概率算法中,他的噪声通道模型,也在概率算法中起到很大的作用。



2.快速发展阶段(1956-1970年)
这个时期,自然语言处理分成了两个阵营,分别是基于规则的符号派(symbolic)基于概率的随机派(stochastic)两种不同的方式。两种方式都取得了很大的发展,以Chomsky代表的符号派开始了形式语言理论和生成句法的研究,形成了形式逻辑系统的研究。随机派则采用基于贝叶斯方法的统计学研究方式,注重于逻辑推理问题,但是由于这一时期没有大数据等技术的支持,只有少数人在研究基于概率的统计方法和神经网络,因此基于规则的方法效果显著优于基于概率的研究方法。

3.低谷阶段(1971 -1993年):
这个时期经历了1970-1983的4种范式主导(随机方法、符号方法、基于逻辑的系统和话语建模范式)的研究。基于自然语言处理的应用并不能在短时间内得到解决,研究者们对自然语言处理的研究丧失了信心。然而70年代,基于隐马尔可夫模型(Hidden Markov Model,HMM)的统计方法在语音识别领域的成功,以及80年代话语分析的重大突破,使得人们重拾了信心。在有限状态模型和经验主义的研究方法开始兴起,转移到了对词性标注、解析、附加模糊度和语义学的研究上。

4.复苏阶段(1994年至今)
90年代中后期,由于计算机速度和存储量的大幅提升,使得自然语言处理的应用更加广泛。1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。


进入20世纪后,语言数据联盟(LDC)等组织提供大量可用书面口头资料。在开发新的语言处理系统时,显得格外重要。随着计算机的速度和内存的不断增加,计算机的算力得到了巨大提升,加之机器学习和大数据等技术的兴起,为自然语言处理提供了新的发展方向。2000年后在自然语言处理上有几大里程碑事件:

2001年 - 神经语言模型
2008年 - 多任务学习
2013年 - Word嵌入
2013年 - NLP的神经网络
2014年 - 序列到序列模型
2015年 - 注意力机制
2015年 - 基于记忆的神经网络
2018年 - 预训练语言模型







自然语言处理技术应用

聊天机器人:






语音助手:

天猫精灵、小度智能音箱、小爱同学






导购机器人:



自然语言处理技术体系




展望未来

现阶段的人工智能已经在运算的智能上非常成熟,在感知的智能上得到了很广泛的应用。未来的人工智能领域势必朝着认知智能和创造智能方向进发。而自然语言处理恰恰是认知智能最重要的一个领域,然而个人认为推进自然语言处理技术,需要包括生物科学、神经科学、计算机科学等多领域迸进,才能得到长足的发展。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

大神点评4

sweet9 2024-4-6 07:58:11 显示全部楼层
转发了
回复

使用道具 举报

wei4832347 2024-4-7 08:35:00 显示全部楼层
好帖必须得顶起
回复

使用道具 举报

abc5441 2024-4-7 13:58:58 显示全部楼层
路过的帮顶
回复

使用道具 举报

边撸边过
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies