找回密码
 立即注册
搜索

2019 自然言语处理前沿论坛,百度NLP技术全揭秘

雷锋网 AI 科技回复按,近日,由百度结合中国计算机学会中文信息技术专委会、中国中文信息学会青工委举行的「2019 自然言语处理前沿论坛」上,来自百度和各大高校的嘉宾们分享了关于 NLP 技术研讨的心得体会。

本次论坛主题为「机器之‘读、写、说、译’—— 探寻 NLP 将来之路」,来自百度的嘉宾们分别在语义计算、自动问答、言语生成、人机对话和机器翻译5场专题报告中分享了百度 NLP 技术的研讨成果与运用。

语义计算

百度 NLP 主任研发架构师、语义计算技术担任人孙宇:百度语义计算技术及其运用


孙宇次要引见了百度语义表示技术的发展和研讨成果、落地状况。

他表示,百度的语义计算方向包括语义表示学习、语义婚配计算、语义解析、多模态语义计算。计算机了解人类言语是一件非常有应战性的事情。

语义表示技术存在的成绩是,自然言语存在基本单元一词多义、多词同义、句子表述有限等特性。而我们的目的是将言语符号“表示”为另一种方式,这种表示具有语义上的等价性,更好的可计算性,更好地把握语义信息。

百度早期的语义表示技术采用的是基于检索和主题模型的表示方法,包括Term向量表示、PLSA、LDA等。

在 2013~2016 年,随着基于 DNN 表示技术的兴起,百度末尾了 word embedding 的研讨。采用的算法是 RNNLM + Hierarchical softmax,其规模达到 1T 百度网页数据,100 万超大规模中文词覆盖,次要研讨成绩是处理大规模分布式计算成绩。2017 年,百度停止了基于大规模表示迁移在口语了解义务的探求。

语义婚配方面,百度 2013 年率先提出了 SimNet 技术,并成功用于网页搜索,在将来的几年中,对该技术做了很多改进创新,包括数据分析、粒度知识交融、交互式婚配模型等方面的创新。SimNet 分明改善了长冷 query 的搜索效果,提升了搜索智能化的程度,在百度搜索发挥至关重要的作用。当前,SimNet 语义婚配技术在百度各产品广泛运用。

如今,百度的最新研讨是提出了知识加强的语义表示模型 ERNIE 并发布了基于 PaddlePaddle 的开源代码与模型。 框架包括基于海量百科、旧事、对话多源数据训练,双向多层 Transformer的 语义建模模型,交融并强化中文词、实体等先验语义知识学习,多阶段知识学习。在自然言语推断、语义相似度、命名实体辨认、情感分析、问答婚配 等多个公开的中文数据集合上停止实验,均获得了最好的效果。

百度接上去的次要工作还是会以语义表示为重点打破方向,包括知识的应用,自监督义务的学习,弱监督信号的应用,多言语、跨模态表示等。

自动问答

百度 NLP 资深研发工程师、阅读了解与问答技术担任人刘璟:百度阅读了解技术研讨及运用


机器阅读了解是指让机器阅读文本,然后回答和阅读内容相关的成绩。机器阅读了解是自动问答的关键技术之一,该技术可以广泛运用于智能问答、智能音箱、智能客服等产品中,因此长期以来遭到学术界和工业界的广泛关注。得益于近两年阅读了解技术的疾速提高,百度已将这一技术运用到智能问答中。

百度次要研发了面向搜索场景的多文档阅读了解模型 V-NET,以及知识表示和文本表示交融模型 KT-NET。

面向搜索场景的多文档阅读了解中,每个成绩包含了多个段落,因此通常存在歧义信息较多的应战。对此,百度研发了端到端的多文档阅读了解模型 V-NET,该模型在英文多文档阅读了解数据集 MSMARCO V2 问答义务上三次排名第一。

此外,机器阅读了解不只要求机器了解给定的文本内容,还要求机用具有外部知识以支撑更为复杂的推理。为此,百度创始性地提出了言语表示与知识表示的深度交融模型 KT-NET,同时借助言语和知识进一步提升机器阅读了解的效果。KT-NET 目前是常识推理阅读了解数据集ReCoRD榜单上排名第一的模型。

除了在技术上不断投入研发,百度在去年推出了面向搜索场景的最大规模的中文阅读了解数据集 DuReader 2.0,规模包含了 30 万成绩和 150 万文档和 66 万答案。百度、中国计算机学会和中文信息学会延续两年举行了基于 DuReader 数据集的机器阅读了解评测,推进了中文阅读了解技术的提高。

言语生成

百度 NLP 主任研发架构师、篇章了解与言语生成技术担任人肖欣延:自然言语生成,助力智能内容创作


肖欣延表示,随着内容生态和智能交互的发展,自然言语生成得到越来越多的关注。一方面自然言语生成可以协助内容创作者提升创作效率,另一方面,也可以用来改善交互的用户体验。

自然言语生成的愿景是,让机器像人类一样去表达和创作。详细来看,它包含很多类型的义务,包括数据到文本的生成、文本到文本的生成、诗歌对联的生成、多模生成、跨言语生成、对话生成等义务。此次报告中,次要从后面四个义务,引见自然言语生成在内容创作的技术及运用。

首先是数据到文本的生成。这里展现了详细的足球比赛快讯生成样例。传统的方法是基于宏观规划、微观规划、表层完成的句法树生成算法,这种算法效果可控,在业务中非常适用。同时报告中也引见了基于深度学习的方法。方法是将宏观规划交融到层次化序列生成算法中,在公开测试集效果不错。

其次是文本到文本的生成。这里展现了基于摘要聚合的写作,可以疾速对热点停止综述报道。其中的核心技术是摘要技术。传统而适用的方法次要是抽取式的算法,经过文档分析、句子排序、句子选择、摘要构建输入摘要。百度同时也创新提出了基于信息选择网络的生成式摘要,并在公开主流数据上得到不错的实验效果。

第三是创意写作,包括诗歌和对联生成。百度创新提出了基于规划的神经网络,并用于诗歌生成。目前基于神经网络生成算法,在写诗写对联上曾经都比较适用。

最后一个义务是多模生成。百度初步尝试了基于视频的写作,经过多模了解技术,如视频了解、观点分析、知识图谱的技术,获得视频的结构化、半结构化表示,然后在应用后面所述的基于数据的生成,撰写出内容丰富的文章。

肖欣延接着讨论了智能写作和人工撰写的关系。智能写作经过大数据分析,获取热点素材,然后疾速根据数据生成报道,但是它生成的报道格式比较固定。而人类写作时,在看到数据或事物之后,会产生各种归纳和联想,深度发掘各种题材,因此写作方式也多种多样。所以,从全体下去看,机器和人的差距依然存在,智能写作不能完全取代作者,而应该和作者分工合作。

为此百度推出了智能写作平台,提供自动写作和辅助写作的才能,进而协助创作者提升内容创作的效率和质量,为智能创作范畴提供更多能够。目前曾经可以经过百度的 AI 平台停止访问。

谈到将来,他表示有很多比较看好的运用。一方面,写作将会愈加自动、更生动、更有深度;另一方面,基于神经网络的生成模型会逐渐适用化;在媒体行业,智能写作会广泛的落地,成为人类创作的助手;在智能交互家居中,言语生成技术也可以很好的提升用户的交互体验。

人机对话

百度 NLP 主任研发架构师、UNIT 技术担任人孙珂博士:对话系统的运用技术探求


近几年来,随着智能对话逐渐深化到各行各业,用户曾经可以在车载、音箱、客服、机器人等场景感遭到智能对话给大家的生活带来的便捷与改变。

但是,随着智能对话技术产业化落地的进一步深化,也面临了更多的应战。例如对话系统的建设成本与效率是企业面临的很大应战,企业需求投入大量人力和工夫停止数据 积累与整理、同时也要为高质量的效果与复杂系统集成 付出较多的成本。

据此,百度基于多年积累的自然言语了解与交互技术、深度学习、大数据等核心才能,打造了智能对话系统定制与服务平台 UNIT,协助开发者降低对话系统研发门槛,准确适配业务需求,训练本人的对话系统。

在 UNIT 平台中,集成了目前工业级研发比较成熟的三种主流对话系统技术,包括义务型对话系统、问答型对话系统和闲谈型对话系统。孙珂博士重点引见了其中的义务型对话系统的完成。据引见,在义务型对话系统中,对话了解的深度与系统的完成成本是百度 UNIT 关注的核心成绩。UNIT 经过交融语义表示预训练模型 ERNIE 的对话了解模型和数据辅助消费工具 DataKit,综合节省了 60% 的义务式对话系统研发成本。

除此之外, UNIT 还针对了解中的常见错误,总结笼统了 15 套对话容错机制,并将其标品化,据引见,该机制可以经过简单的澄清反问,大幅提升对话了解的全体达成效率。

最后,孙珂博士还展现了 UNIT 基于阅读了解技术为开发者搭建的对话式文档问答技术。经过该技术,开发者只需上传业务文档并一键训练,即可在1分钟内疾速定制问答系统。

机器翻译

百度人工智能技术委员会主席何中军:机器同传停顿与展望


同声传译最早出如今 1919 年,它最突出的特点是工夫延迟小,信息传递效率非常高,因此被广泛的运用于重要国际会议、外交会谈等重要场景。在同声传译的过程中,同声译员需求全神贯注地停止监听,工作强度极高。由于苛刻的要求,全球同传译员稀缺。与宏大的市场需求相比,人才严重短缺。

目前,机器同声传译技术面临着三大应战,一是技术应战,二是数据应战,三是评价应战。

技术应战方面,第一个成绩是噪声成绩,由于说话人的口音、语速、现场会议噪声等要素,使得语音辨认的结果存在错误。第二个成绩是断句,需求对语音辨认后的结果停止分句并加上标点。第三个成绩是,工夫延迟与准确率存在矛盾。假如要提高准确率,就需求等待说话人的详细意思表达残缺之后再停止翻译,工夫延迟就会比较高。第四个成绩是翻译的连接性。同传的次要场景是对演讲者的内容停止实时翻译,需求保证翻译前后内容的连接和分歧。

第二是数据应战。面向真实场景的训练数据只要几十到几百个小时,这么少的数据对于训练一个高质量的同传系统而言远远不够。

第三是评价应战。在文本翻译的时分,我们有足够的工夫去思索、润饰和加工。而在同声传译时,实时性非常强,所采用的翻译方式与文本翻译不同。针对文本的评价方式不适用于评价同传。

针对语音辨认错误的成绩,百度提出了结合词向量编码模型。这个模型非常简单,就是在原来文本向量的基础上引入了音节向量,使得模型具有了一定的容错才能。

百度还提出了可控时延的翻译模型,来处理工夫延迟的成绩。在传统的文本翻译过程中,我们要等待一个句子完全输入终了当前才能停止翻译。百度从同传译员那里获得灵感,提出了一个可以预测的模型,在原始句子只输入几个字当前,就可以末尾预测和翻译。

在语篇翻译方面,百度提出了多轮解码策略,第一遍首先停止传统的粗解码,在这个基础上,再结合句子的上下文停止第二遍精细解码。同时,引入了强化学习策略,对产生的句子停止反馈和优化,以进一步提升句子之间的流利度。

此外,在端到端机器同传模型方面,百度提出基于知识蒸馏的同传模型。应用大规模文本翻译语料训练一个教师模型,去优化端到端的同传翻译模型。该模型可以有效克制数据稀疏成绩,分明提升翻译质量。

为推进机器同传技术发展,百度翻译结合 CCMT2019(全国机器翻译研讨会)推出全球首个面向真实场景的中英同传评测义务,同时发布了首个真实演讲场景的中英同传数据集CCMT2019-BSTC,两项工作都将极大地推进同声传译的相关研讨和发展。

何中军表示,将来,机器同传可以从以下三个方面展开工作,在模型方面,研讨高鲁棒、低时延的同传模型;在数据方面,建设大规模面向真实场景的同传数据;在评价方面,建立面向同传的评价体系和标准。

雷锋网雷锋网

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评6

百度的技术能够特别牛,我不是专业的,也不好评价,我只知道,百度搜出来的东西配不上说的这么好的技术。
回复

使用道具 举报

柳xu_ 2019-6-3 11:42:15 显示全部楼层
分享了
回复

使用道具 举报

吕布中 2019-6-3 11:46:21 显示全部楼层
分享了
回复

使用道具 举报

分享了
回复

使用道具 举报

李少龙 2019-6-4 09:33:03 显示全部楼层
啥玩应呀
回复

使用道具 举报

very good
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies