找回密码
 立即注册
搜索

自然语言理解(NLP)概念|数据堂

FZWQ01 2024-1-17 22:27:12 显示全部楼层 阅读模式
近来,人工智能(AI)行业利好消息不断,各大巨头都在积极拼抢这个领域的人才,笔者最近也频繁收到相关方面的咨询和讨论,不得不说,有时候大家真的搞错。人工智能是个非常大的概念,囊括了几乎所有学科,并非单纯计算机、通信、声学、光学等领域,也并非热炒的机器学习(例如深度学习和强化学习)就能实现的。然而,基于大数据和机器学习的狭义人工智能,确实已经给人类生活带来了巨大的变化,比如搜索、电商、广告、社交、语音等等。


一直以来,人们似乎都把语音识别看的极其重要,并认为语音识别就是最接近人工智能的领域。实际上这是一个误区,语音和按键、触摸、手势等方法一样,只是人类交互的一种手段。也有很多人认为语音帮助人类产生了智慧,然而,这一观点并没有有力的证据支撑。目前,这方面的基础研究还没有实质性的进展,我们对人体精密构造的认知还是非常浅薄的,至于智慧更是几乎一无所知。唯一能推断的就是,语音交互确实是我们获取知识的一种重要手段。



目前人工智能的相关应用中,语音识别并非是关键点,而且语音识别也并未给我们生活带来多大变化。语音识别经过十多年的高速发展,特别是结合深度学习的融合发展,目前的精度已经相当高,然而达到99%以后,再提升就显得非常困难。但为什么语音识别的精度到达如此程度,我们却对其仍然不满意呢?其实,这和语音识别的关系不大,是我们误把语言理解的概念强加给了语音识别。实际上,语音识别只是人工智能中的一个小学科,现在也可以算是深度学习中的一个分支。类似于人类,语音识别至多是我们听觉系统内的一个神经单元,只负责将语言转化成人类可听到的信号激励,若在计算机应用中,就是转化成我们常说的文字。


那么关键点在哪?从各大巨头发布的宣传资料和介绍的相关信息来看,实际上大家都在追求:自然语言处理(Natural Language Process,NLP)或者说自然语言理解(Natural Language Understanding,NLU)的突破。当然,这也是得益于基础声学和语音识别的巨大进步。基础声学和语音识别解决的是计算机“听得见”的问题,而NLP实际上就是要解决计算机“听的懂”的问题。这么看来,“听的懂”才是目前十年内最为关键的问题


事实上,自然语言处理(NLP),或者说自然语言理解(NLU),或者说计算语言学(CL)很难有个准确的定义。1999年美国计算机学家Bill Manaris曾这样描述:自然语言处理是一门研究人与人交际中,以及人与计算机交际中的语言问题的学科。自然语言处理(NLP)研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并提出相应的方法来不断地完善这样的语言模型,还要根据这样的语言模型来设计各种实用系统,并探讨这些实用系统的评测技术。笔者认为这个概念定义的比较准确,但又太过泛泛了。所以,很多时候我们仍然非常迷惘,然而这没有问题,因为语言本身就是我们人类最为复杂的概念之一。
数据堂自制版权的系列数据集产品为“自然语言理解”这一技术路径的实现提供了强有力的支持。
1,300万组人机对话交互文本数据
该数据包括人机对话交互文本数据,总计1,300 万组,该数据为用户和机器人间的交互类文本数据,每行为一组交互文本,中间用'|'进 行分隔;数据可用于自然语言理解、知识库构建等不同领域。


总之,自然语言理解随着深度学习的发展,还是看到了很多进展,但是NLP所需要解决的语言问题真的是非常复杂,近期内还是难以有所突破。正因为有这些挑战,才更需要更多有才华的人才持续不断的投入这个行业,而且这是未来数十年的新兴行业,现在刚毕业的优秀学生都有可能拿到50万的年薪,其经济收入将是很可观的。当然这也是个问题,虚高的投入或许会给这个行业带来一些阻碍。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

寂寞拔条子 2024-1-18 07:00:26 显示全部楼层
那个啥吧。。。就是这个。。。你知道我要说啥吧。。。
回复

使用道具 举报

acocabook 2024-1-18 15:27:38 显示全部楼层
看起来好像不错的样子
回复

使用道具 举报

传说中的沙发???哇卡卡
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies