2019 自然言语处理前沿论坛，百度NLP技术全揭秘

玉海棠 · 2019-6-3 11:35:06

雷锋网 AI 科技回复按，近日，由百度结合中国计算机学会中文信息技术专委会、中国中文信息学会青工委举行的「2019 自然言语处理前沿论坛」上，来自百度和各大高校的嘉宾们分享了关于 NLP 技术研讨的心得体会。

本次论坛主题为「机器之‘读、写、说、译’—— 探寻 NLP 将来之路」，来自百度的嘉宾们分别在语义计算、自动问答、言语生成、人机对话和机器翻译5场专题报告中分享了百度 NLP 技术的研讨成果与运用。

语义计算

百度 NLP 主任研发架构师、语义计算技术担任人孙宇：百度语义计算技术及其运用

孙宇次要引见了百度语义表示技术的发展和研讨成果、落地状况。

他表示，百度的语义计算方向包括语义表示学习、语义婚配计算、语义解析、多模态语义计算。计算机了解人类言语是一件非常有应战性的事情。

语义表示技术存在的成绩是，自然言语存在基本单元一词多义、多词同义、句子表述有限等特性。而我们的目的是将言语符号“表示”为另一种方式，这种表示具有语义上的等价性，更好的可计算性，更好地把握语义信息。

百度早期的语义表示技术采用的是基于检索和主题模型的表示方法，包括Term向量表示、PLSA、LDA等。

在 2013~2016 年，随着基于 DNN 表示技术的兴起，百度末尾了 word embedding 的研讨。采用的算法是 RNNLM + Hierarchical softmax，其规模达到 1T 百度网页数据，100 万超大规模中文词覆盖，次要研讨成绩是处理大规模分布式计算成绩。2017 年，百度停止了基于大规模表示迁移在口语了解义务的探求。

语义婚配方面，百度 2013 年率先提出了 SimNet 技术，并成功用于网页搜索，在将来的几年中，对该技术做了很多改进创新，包括数据分析、粒度知识交融、交互式婚配模型等方面的创新。SimNet 分明改善了长冷 query 的搜索效果，提升了搜索智能化的程度，在百度搜索发挥至关重要的作用。当前，SimNet 语义婚配技术在百度各产品广泛运用。

如今，百度的最新研讨是提出了知识加强的语义表示模型 ERNIE 并发布了基于 PaddlePaddle 的开源代码与模型。框架包括基于海量百科、旧事、对话多源数据训练，双向多层 Transformer的语义建模模型，交融并强化中文词、实体等先验语义知识学习，多阶段知识学习。在自然言语推断、语义相似度、命名实体辨认、情感分析、问答婚配等多个公开的中文数据集合上停止实验，均获得了最好的效果。

百度接上去的次要工作还是会以语义表示为重点打破方向，包括知识的应用，自监督义务的学习，弱监督信号的应用，多言语、跨模态表示等。

自动问答

百度 NLP 资深研发工程师、阅读了解与问答技术担任人刘璟：百度阅读了解技术研讨及运用

机器阅读了解是指让机器阅读文本，然后回答和阅读内容相关的成绩。机器阅读了解是自动问答的关键技术之一，该技术可以广泛运用于智能问答、智能音箱、智能客服等产品中，因此长期以来遭到学术界和工业界的广泛关注。得益于近两年阅读了解技术的疾速提高，百度已将这一技术运用到智能问答中。

百度次要研发了面向搜索场景的多文档阅读了解模型 V-NET，以及知识表示和文本表示交融模型 KT-NET。

面向搜索场景的多文档阅读了解中，每个成绩包含了多个段落，因此通常存在歧义信息较多的应战。对此，百度研发了端到端的多文档阅读了解模型 V-NET，该模型在英文多文档阅读了解数据集 MSMARCO V2 问答义务上三次排名第一。

此外，机器阅读了解不只要求机器了解给定的文本内容，还要求机用具有外部知识以支撑更为复杂的推理。为此，百度创始性地提出了言语表示与知识表示的深度交融模型 KT-NET，同时借助言语和知识进一步提升机器阅读了解的效果。KT-NET 目前是常识推理阅读了解数据集ReCoRD榜单上排名第一的模型。

除了在技术上不断投入研发，百度在去年推出了面向搜索场景的最大规模的中文阅读了解数据集 DuReader 2.0，规模包含了 30 万成绩和 150 万文档和 66 万答案。百度、中国计算机学会和中文信息学会延续两年举行了基于 DuReader 数据集的机器阅读了解评测，推进了中文阅读了解技术的提高。

言语生成

百度 NLP 主任研发架构师、篇章了解与言语生成技术担任人肖欣延：自然言语生成，助力智能内容创作

肖欣延表示，随着内容生态和智能交互的发展，自然言语生成得到越来越多的关注。一方面自然言语生成可以协助内容创作者提升创作效率，另一方面，也可以用来改善交互的用户体验。

自然言语生成的愿景是，让机器像人类一样去表达和创作。详细来看，它包含很多类型的义务，包括数据到文本的生成、文本到文本的生成、诗歌对联的生成、多模生成、跨言语生成、对话生成等义务。此次报告中，次要从后面四个义务，引见自然言语生成在内容创作的技术及运用。

首先是数据到文本的生成。这里展现了详细的足球比赛快讯生成样例。传统的方法是基于宏观规划、微观规划、表层完成的句法树生成算法，这种算法效果可控，在业务中非常适用。同时报告中也引见了基于深度学习的方法。方法是将宏观规划交融到层次化序列生成算法中，在公开测试集效果不错。

其次是文本到文本的生成。这里展现了基于摘要聚合的写作，可以疾速对热点停止综述报道。其中的核心技术是摘要技术。传统而适用的方法次要是抽取式的算法，经过文档分析、句子排序、句子选择、摘要构建输入摘要。百度同时也创新提出了基于信息选择网络的生成式摘要，并在公开主流数据上得到不错的实验效果。

第三是创意写作，包括诗歌和对联生成。百度创新提出了基于规划的神经网络，并用于诗歌生成。目前基于神经网络生成算法，在写诗写对联上曾经都比较适用。

最后一个义务是多模生成。百度初步尝试了基于视频的写作，经过多模了解技术，如视频了解、观点分析、知识图谱的技术，获得视频的结构化、半结构化表示，然后在应用后面所述的基于数据的生成，撰写出内容丰富的文章。

肖欣延接着讨论了智能写作和人工撰写的关系。智能写作经过大数据分析，获取热点素材，然后疾速根据数据生成报道，但是它生成的报道格式比较固定。而人类写作时，在看到数据或事物之后，会产生各种归纳和联想，深度发掘各种题材，因此写作方式也多种多样。所以，从全体下去看，机器和人的差距依然存在，智能写作不能完全取代作者，而应该和作者分工合作。

为此百度推出了智能写作平台，提供自动写作和辅助写作的才能，进而协助创作者提升内容创作的效率和质量，为智能创作范畴提供更多能够。目前曾经可以经过百度的 AI 平台停止访问。

谈到将来，他表示有很多比较看好的运用。一方面，写作将会愈加自动、更生动、更有深度；另一方面，基于神经网络的生成模型会逐渐适用化；在媒体行业，智能写作会广泛的落地，成为人类创作的助手；在智能交互家居中，言语生成技术也可以很好的提升用户的交互体验。

人机对话

百度 NLP 主任研发架构师、UNIT 技术担任人孙珂博士：对话系统的运用技术探求

近几年来，随着智能对话逐渐深化到各行各业，用户曾经可以在车载、音箱、客服、机器人等场景感遭到智能对话给大家的生活带来的便捷与改变。

但是，随着智能对话技术产业化落地的进一步深化，也面临了更多的应战。例如对话系统的建设成本与效率是企业面临的很大应战，企业需求投入大量人力和工夫停止数据积累与整理、同时也要为高质量的效果与复杂系统集成付出较多的成本。

据此，百度基于多年积累的自然言语了解与交互技术、深度学习、大数据等核心才能，打造了智能对话系统定制与服务平台 UNIT，协助开发者降低对话系统研发门槛，准确适配业务需求，训练本人的对话系统。

在 UNIT 平台中，集成了目前工业级研发比较成熟的三种主流对话系统技术，包括义务型对话系统、问答型对话系统和闲谈型对话系统。孙珂博士重点引见了其中的义务型对话系统的完成。据引见，在义务型对话系统中，对话了解的深度与系统的完成成本是百度 UNIT 关注的核心成绩。UNIT 经过交融语义表示预训练模型 ERNIE 的对话了解模型和数据辅助消费工具 DataKit，综合节省了 60% 的义务式对话系统研发成本。

除此之外， UNIT 还针对了解中的常见错误，总结笼统了 15 套对话容错机制，并将其标品化，据引见，该机制可以经过简单的澄清反问，大幅提升对话了解的全体达成效率。

最后，孙珂博士还展现了 UNIT 基于阅读了解技术为开发者搭建的对话式文档问答技术。经过该技术，开发者只需上传业务文档并一键训练，即可在1分钟内疾速定制问答系统。

机器翻译

百度人工智能技术委员会主席何中军：机器同传停顿与展望

同声传译最早出如今 1919 年，它最突出的特点是工夫延迟小，信息传递效率非常高，因此被广泛的运用于重要国际会议、外交会谈等重要场景。在同声传译的过程中，同声译员需求全神贯注地停止监听，工作强度极高。由于苛刻的要求，全球同传译员稀缺。与宏大的市场需求相比，人才严重短缺。

目前，机器同声传译技术面临着三大应战，一是技术应战，二是数据应战，三是评价应战。

技术应战方面，第一个成绩是噪声成绩，由于说话人的口音、语速、现场会议噪声等要素，使得语音辨认的结果存在错误。第二个成绩是断句，需求对语音辨认后的结果停止分句并加上标点。第三个成绩是，工夫延迟与准确率存在矛盾。假如要提高准确率，就需求等待说话人的详细意思表达残缺之后再停止翻译，工夫延迟就会比较高。第四个成绩是翻译的连接性。同传的次要场景是对演讲者的内容停止实时翻译，需求保证翻译前后内容的连接和分歧。

第二是数据应战。面向真实场景的训练数据只要几十到几百个小时，这么少的数据对于训练一个高质量的同传系统而言远远不够。

第三是评价应战。在文本翻译的时分，我们有足够的工夫去思索、润饰和加工。而在同声传译时，实时性非常强，所采用的翻译方式与文本翻译不同。针对文本的评价方式不适用于评价同传。

针对语音辨认错误的成绩，百度提出了结合词向量编码模型。这个模型非常简单，就是在原来文本向量的基础上引入了音节向量，使得模型具有了一定的容错才能。

百度还提出了可控时延的翻译模型，来处理工夫延迟的成绩。在传统的文本翻译过程中，我们要等待一个句子完全输入终了当前才能停止翻译。百度从同传译员那里获得灵感，提出了一个可以预测的模型，在原始句子只输入几个字当前，就可以末尾预测和翻译。

在语篇翻译方面，百度提出了多轮解码策略，第一遍首先停止传统的粗解码，在这个基础上，再结合句子的上下文停止第二遍精细解码。同时，引入了强化学习策略，对产生的句子停止反馈和优化，以进一步提升句子之间的流利度。

此外，在端到端机器同传模型方面，百度提出基于知识蒸馏的同传模型。应用大规模文本翻译语料训练一个教师模型，去优化端到端的同传翻译模型。该模型可以有效克制数据稀疏成绩，分明提升翻译质量。

为推进机器同传技术发展，百度翻译结合 CCMT2019（全国机器翻译研讨会）推出全球首个面向真实场景的中英同传评测义务，同时发布了首个真实演讲场景的中英同传数据集CCMT2019-BSTC，两项工作都将极大地推进同声传译的相关研讨和发展。

何中军表示，将来，机器同传可以从以下三个方面展开工作，在模型方面，研讨高鲁棒、低时延的同传模型；在数据方面，建设大规模面向真实场景的同传数据；在评价方面，建立面向同传的评价体系和标准。

雷锋网雷锋网

双子座的xy · 2019-6-3 11:37:28

百度的技术能够特别牛，我不是专业的，也不好评价，我只知道，百度搜出来的东西配不上说的这么好的技术。

柳xu_ · 2019-6-3 11:42:15

分享了

吕布中 · 2019-6-3 11:46:21

分享了

明明只爱一生 · 2019-6-3 11:51:58

分享了

李少龙 · 2019-6-4 09:33:03

啥玩应呀

沙13076142896 · 2019-6-5 13:52:25

very good

		自动登录	找回密码
密码			立即注册

2019 自然言语处理前沿论坛，百度NLP技术全揭秘

本帖子中包含更多资源

大神点评6

最近发表

公社版块

关注我们