国际计算语言学协会(ACL,The Association for Computational Linguistics)成立于1962年,是自然语言处理领域影响力最大、最具活力的国际学术组织之一,自成立之日起就致力于推动计算语言学及自然语言处理相关研究的发展和国际学术交流。百度高级副总裁、AI技术平台体系(AIG)和基础技术体系(TG)总负责人王海峰曾于2013年出任 ACL主席,是ACL五十多年历史上首位华人主席,也是ACL亚太分会(AACL)的创始主席,ACL会士。研究论文能够被ACL学术年会录用,意味着研究成果得到了国际学术界的认可。
百度被录用的10篇论文,覆盖了信息抽取、机器阅读理解、对话系统、视频语义理解、机器翻译等诸多NLP领域的热点和前沿研究方向,提出了包括基于注意力正则化的ARNOR框架(Attention Regularization based NOise Reduction)、语言表示与知识表示深度融合的KT-NET模型、多粒度跨模态注意力机制、基于端到端深度强化学习的共指解析方法等,在人机交互、智能客服、视频理解、机器翻译等场景中具有很大的应用价值。
为此,我们提出基于注意力正则化的ARNOR框架(Attention Regularization based NOise Reduction)。此方法通过注意力机制,要求模型能够关注关系的指示词,进而识别噪声数据,并通过bootstrap方法逐步选择出高质量的标注数据,改善模型效果。此方法在关系分类及降噪上均显著优于此前最好的增强学习算法。
2.Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension
摘要:机器阅读理解 (Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。该技术可以使机器具备从文本数据中获取知识并回答问题的能力,是构建通用人工智能的关键技术之一,长期以来受到学术界和工业界的广泛关注。近两年,预训练语言表示模型在机器阅读理解任务上取得了突破性进展。通过在海量无标注文本数据上预训练足够深的网络结构,当前最先进的语言表示模型能够捕捉复杂的语言现象,更好地理解语言、回答问题。然而,正如大家所熟知的,真正意义上的阅读理解不仅要求机器具备语言理解的能力,还要求机器具备知识以支撑复杂的推理。为此,在论文《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》中,百度开创性地提出了语言表示与知识表示的深度融合模型KT-NET,希望同时借助语言和知识的力量进一步提升机器阅读理解的效果。