智客公社

标题: 自然语言对话:未来发展的机遇在哪里? [打印本页]

作者: 樱木迷    时间: 2023-7-25 08:27
标题: 自然语言对话:未来发展的机遇在哪里?
[attach]809504[/attach]

转载自:中国计算机学会(ID:ccfvoice)

作者:李航

本文5133字,建议阅读13分钟

本文带来对自然语言对话未来发展机遇的观点分享。

任何卖不出去的东西,我不会去发明。产品的销售是有用的证明,有用才是成功。(Anything that won’t sell, I

[attach]809505[/attach]

don’t want to invent. Its sale is proof of utility, and utility is success)——托马斯·爱迪生

前言

自然语言对话系统的研究与开发从人工智能早期就已开始。从ELIZA到SHRDLU,从Siri到Alexa,对话系统伴随着语言与语音技术的进步不断地发展与演进(见表1)。当前自然语言对话技术作为人机交互的重要手段,已经可以用到许多领域和场景中,各种对话系统,包括手机、电视、车载的语音助手、智能音箱、自动客服、聊天机器人,已经进入我们生活和工作的方方面面,而且随着技术的发展,将会被更广泛地使用 。



表1 一些著名的对话系统

对话技术在过去几十年里的进步有多大?要找到这个问题的答案,可以观看1992年美国电视节目《早安美国》(Good Morning America)的一个报道(Youtube上有该节目的视频)。节目中当时在苹果公司任职的李开复演示了苹果公司开发的语音对话系统Casper。当时最先进的Casper也只能“理解”一些简单的命令,语音识别的准确率不到90%。相比之下,现在的语音对话系统一般可以“理解”更多更复杂的语音,识别的准确率也超过95%。

应用与技术的现状

自然语言对话系统分为语音对话系统与文字对话系统,有C端(面向消费者)应用和B端(面向企业)应用。C端语音对话系统主要有手机、电视、车载的语音助手、智能音箱等。

据国内市场调查[1],在使用语音对话系统的用户中,有33%的用户每天使用,42%的用户每周使用3~4次,16%的用户每周使用一次。据专业人士估计,手机、车载、电视、智能音箱的语音对话系统日使用率分别为5%、45%、30%、25%。

语音对话系统的内容涵盖多个方面,比如智能音箱的生活类技能主要有闹钟、天气查询、计算器、日历查询等,80%的智能音箱拥有闹钟和天气查询技能,50%的智能音箱拥有计算器和日历查询技能(见图1),等等[2]。

[attach]809506[/attach]

图1 智能音箱的生活类技能

可以看出,用户对语音对话系统的使用频度还是比较高的,只要开始使用就能在一定程度上持续使用。语音对话系统的种类主要集中在车载和家居(电视和智能音箱)场景,主要原因是这些场景更加便于使用语音对话。语音对话系统能够帮助用户解决一些问题,但离真正成为智能助理的目标还有很大距离。

从技术的角度来讲,单轮对话和简单多轮对话技术,特别是命令型和问答型对话技术,在一定程度上已经比较实用,虽然还有很多具体问题仍需解决[3]。

2012年以来,深度学习给人工智能领域带来了革命性的变化。在语音对话方面,主要体现为语音技术的巨大进步。1994年ACM图灵奖获得者拉吉·瑞迪(Raj Reddy)教授曾发出这样的感慨:10年前我不会觉得在我有生之年可以看到机器能够这样准确地识别人的声音。

相比之下,基于深度学习的语言技术的进展并没有那么显著。自然语言处理是人工智能最具挑战的领域。在对话方面,挑战主要体现在语言的表示与理解以及任务的表示与完成上。我们还不知道如何让计算机像人一样表示与处理具有多义性和多样性的语言,还不知道在计算机上如何有效地表示和处理极其复杂的各种任务[3]。

当前的自然语言对话,一方面已有技术趋于成熟实用,另一方面新技术的突破有待今后长期的努力。

技术创新的关键

作家盖尔布(Gelb)和考尔迪科特(Caldicott)在《像爱迪生一样创新》一书中总结了爱迪生创新的五大特点[4],其中一个是“超级价值创造”(super value creation)。爱迪生认为产品技术创新的目的在于为用户创造更高价值,对用户没有用的技术不值得去发明,相关产品也不会取得商业成功。这一点对自然语言对话技术的开发也是适用的。

人的语言运用,不仅基于语言本身,而且涉及情感、常识、推理。要实现对用户有价值的对话系统,不仅仅需要考虑功能要素,而且需要考虑情感和文化要素,特别是在当前技术还不够完美的情况下,这一点就更加重要。我们需要将技术和设计结合起来,构建便于用户使用的对话系统(如图2所示)。



图 2 对话技术开发的重要要素

笔者一直有这个观点:技术所能达到的产品性能的上界(简称技术上界),如果不能超过用户使用时对产品性能要求的下界(简称使用下界),那么这个产品就很难被用户接受(见图3)。也就是说,技术所能达到的性能的绝对高低并不重要,重要的是它必须高于用户使用时所能容忍的底线[5]。对话系统的开发也一样,不可能也不应该将不成熟的技术用于实际。解决这个问题的唯一办法是研究出更好的技术,直到满足实际要求为止。



图3 技术上界与使用下界

未来的机会

当前自然语言对话技术作为人机交互的重要手段,已经可以用到许多领域和场景中,而且随着技术的发展,将会被更广泛地使用

亚马逊公司从2017年开始每年举办Alexa Prize比赛,邀请全球各地的大学团队参加[6],任务是开发一种信息机器人。用户可以通过与机器人的对话获取互联网和社交媒体的信息与观点,涵盖体育、政治、娱乐等领域。比如,用户只要说“Alexa,咱们聊聊体育吧”,就可以启动系统关于体育方面的信息进行交流对话。互联网和社交媒体上有大量的信息,用户的需求和表达也多种多样,如何对信息进行筛选和整理,并通过交互式对话的方式按需求提供给用户是其中的主要挑战。比赛以用户满意度、对话一致性、用户参与度、领域覆盖度、话题多样性、对话深度等多个指标来评价对话系统的能力。

Lovot是2018年日本初创公司GrooveX发布的一款陪伴机器人。Lovot由“Love”和“Robot”两个词组合而成,寓意其主要功能是做用户的伴侣。这款43厘米高、3公斤重的机器人,内置10个CPU、20多个微控制器和50多个传感器。它可以在房间内移动,识别人和物体,摆出姿势,做出动作(见图4)。当你把它抱起时,它会像小动物一样变得温顺;当你用手轻轻抚摸它时,它会像小孩一样进入睡眠。“一般的机器人会帮助用户完成任务或者给用户提供信息,把这两者都放弃的是Lovot ”,机器人的发明人林要(Kaname Hayashi)这样解释,“它没有生命,但和它在一起能让人感到快乐与慰藉”。据说,未来的Lovot会增加语音功能,如果可以进行简单的会话,那么它一定会变得更加可爱。



图4 陪伴机器人Lovot

Façade是2005年发行的一款基于自然语言对话的游戏。玩家可以通过文字对话的方式,与游戏中住在公寓里的特里普(Trip)和格雷丝(Grace)夫妇进行交谈(见图5)。玩家进入公寓后,会发现两人正在吵架,玩家与两人对话言语的“恰当与不当”,可能使两人吵得更加激烈,也可能使两人重归于好,也可能使自己被驱赶出公寓。Façade实际是一个拥有多个不同结局的交互式故事剧。现阶段,计算机理解人的对话一定会产生错误,而在游戏中这样的错误反而可能会增加趣味性。巧妙的设计,能让对话在游戏中发挥出重要的作用。换言之,游戏是对话技术大有可为的领域之一。



图5 Façade游戏

可以预见,对话技术不仅在以上领域,在通用领域以及在医疗、法律、金融、教育、交通等垂直领域都将成为越来越重要的核心技术。

设计与开发原则

这里提出设计与开发对话系统的四项原则。

原则1:尽量理解同一意图的不同说法

实现对话系统的技能(技能是指查询天气、设置闹钟等对话功能)不一定在多而在精,每一个技能都应该让用户觉得好用,这样才能起到智能工具的作用。每一个意图,无论用户用什么说法,尽量让系统都能够正确理解,至少能够正确理解最基本的说法。收集和分析日志数据,这一点实现的可能性会越来越大。自然语言最大的特点就是表达自由,笔者过去的经验是,用户最讨厌需要记住什么能说,什么不能说,或者需要说哪些“特定”语言。所以,尽量实现说法的完备性,即理解同一意图的不同说法,这样才能为用户提供好的体验。

原则2:失败时能优雅地处理

机器还无法拥有和人一样的语言理解机制,对话中会出现错误理解人的语言,或者不能理解人的语言的情况。对机器来说,总会有“听错”,或者“听不懂”的时候。同一个场景下的语言一般符合幂律分布,无论是使用规则还是机器学习模型,都会遇到难以覆盖语言的尾部的挑战。所以,一定要假设对话失败必然出现,甚至频繁出现。因此,自然地应对失败、优雅地处理失败对于对话系统来说至关重要。其实人也不能完全准确无误地进行对话交流,但人拥有修复对话错误的能力。所以需要赋予对话系统类似的能力,比如可以让系统在对内容不确定时反问用户,确认对话的内容。

原则3:适当地拟人化

对话系统和很多智能系统的不同之处在于,对话系统能像我们一样使用语言,给我们带来惊喜。所以可以适当地对对话系统进行拟人化,增加系统的人性化要素和社交要素。一个带有同情心、情感和幽默感的系统,能让用户更加喜欢,核心还是用户体验。拟人化的重要性可以从一些用户对微软社交机器人小冰的喜爱中略见一斑[7]。

原则4: 不要假装智能

和其他人工智能系统一样,开发智能对话系统的目标也是为人类提供有用的工具,所以没有必要让对话系统模仿人类,也没有必要让它假装智能。关键还是要看它是否能给用户带来价值,能否让用户使用方便。系统在某些场景中表现得很智能,但在类似的场景中又没有类似的智能表现,反而会让用户的体验更不好,所以在设计时需要考虑最坏情况。

结语

法拉第(Michael Faraday)发现电磁感应现象之后,有一次给英国首相和大臣们做演示,其中有人问:“这有什么用?”法拉第反问:“一个新生的婴儿有什么用?”基础研究不需要考虑有用性,但应用研究需要,就像是问一个成人是否对社会有用一样。将科学应用于实际,真正为用户创造价值是产品和应用的根本,自然语言对话技术的开发也不例外。

现有的对话技术已经实用化,一些系统已经进入我们的工作和生活,而且在不断进步。今后一定会有更多的对话系统来到我们身边,关键是看能否帮到用户,让用户真正喜欢,经常使用。另一方面,自然语言对话仍是极具挑战的问题,需要长期的研究才能够达到接近人的水平。但即使在现在的条件下,通过技术和设计的结合,也能在不同的领域里开发出让用户满意的对话系统,而这需要合理的设计理念和原则。

▌参考文献 ▌

[1]艾瑞咨询.中国智能语音助手企业案例研究报告[OL].(2018-06-13). http://report.iresearch.cn/report/201806/3227.shtml.

[2]张俊霞. 中国智能语音业务与应用发展白皮书[OL].(2018-03-21) http://www.vdata360.com/html/document/preview.do?docid=I19012816201513600104.

[3]李航. 自然语言对话:现状与未来[J]. 中国自动化学会模式识别与机器智能专委会通讯, 2018, (2).

[4]Gelb M, Caldicott S M. Innovate like Edison: The Success System of America’s Greatest Inventor[M]. Dutton, 2007.

[5]李航. 技术上界与使用下界[OL].(2015-02-08). http://blog.sina.com.cn/s/blog_7ad48fee0102veje.html.

[6]Ram A, Prasad R, Khatri C, et al. Conversational AI: The Science behind Alexa Prize[OL].(2018-01-11). https://arxiv.org/abs/1801.03604.

[7]Zhou L, Gao J, Li D, et al. The Design and Implementation of XiaoIce, an Empathetic Social Chatbot[OL]. (2018-12-21).https://arxiv.org/abs/1812.08989.

▌作者简介 ▌



李航

CCF杰出会员,CCCF 特邀专栏作家。字节跳动科技有限公司人工智能实验室总监(Director of AI Lab)。主要研究方向为自然语言处理、信息检索、机器学习等。lihang.lh@bytedance.com

该文未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。如需转载,请通过向CCFvoice公众号后台申请并获得授权。THU数据派已获授权。


— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。
作者: 颖伊儿    时间: 2023-7-25 14:59
不太懂?有没有详细介绍?
作者: 东莞快嘴    时间: 2023-7-27 21:08
一直在看




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4