找回密码
 立即注册
搜索

自然言语了解作为人工智能皇冠上的明珠 百度真的摘到了

如今做 AI 的公司很多,但在 AI 上倾注全力还可以每天让数亿用户频繁运用到的,在大公司中也屈指可数。AI 也不只是「一种技术」,而是「多个技术的最终集合体」,其中有任何一个技术出现短板都会影响 AI 技术程度的下限。但 AI 本人要打破最终的天花板还是要靠「自然言语了解」(即常说的 NLP) 才能的发展,这也意味着言语与知识等认知层面的技术打破将进一步促进 AI 深化发展。它就像你学习言语的才能,能了解的知识越多,言语才能越丰富,就越能展现出你出色的才能,否则就是「墙上芦苇,虎头蛇尾根底浅;山间竹笋,嘴尖皮厚腹中空」。

8 月 25 日,百度 CTO 王海峰发表宗旨演讲,解读百度言语与知识技术的发展历程与最新成果,并初次发布了百度大脑言语与知识产品全景图。



「在百度言语与知识技术的规划和发展中,我们一直在留意把握两个趋向,即技术发展趋向和产业发展趋向,并力争引领趋向,」王海峰讲道,「言语与知识技术是人工智能认知才能的核心,以言语和知识为研讨对象,让机器像人一样掌握知识、了解言语的自然言语处理技术,对于人工智能发展至关重要。」



历经近十年发展,百度曾经构建了残缺的言语与知识技术规划,包括知识图谱、言语了解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的运用系统。



其中,知识图谱是机器认知世界的基础。机器认知才能的打破,越来越依赖对知识和大规模知识图谱的运用。百度打造了世界上最大的多源异构知识图谱,拥有超过 50 亿实体和 5500 亿理想,并在不断演进和更新,已运用于各行各业,每日调用次数超过 400 亿次。



王海峰片面分享了百度言语与知识技术残缺规划和最新成果。

不只如此,针对不同运用场景和知识形状,百度还建立起多样化的知识图谱类型,既有基础的实体知识图谱,也有行业知识图谱、事情图谱、关注点图谱等,以及交融语音、视频、图片的多模态知识图谱。这背后,是百度创建的包括无标签大数据开放知识发掘技术、知识体系自扩展的知识图谱自学习技术、以及交融多源异构数据的知识补全与整合技术在内一整套知识图谱构建方法。

首先,知识图谱是机器认知世界的重要基础,百度打造了世界上最大规模知识图谱,拥有超过 50 亿实体和 5500 亿理想,并在不断演进和更新。百度知识图谱运用于各行各业,每天的调用次数超过 400 亿次。

其次,在融入知识的基础上,言语了解才能不断加强。2019 年 3 月,百度提出知识加强的语义了解框架 ERNIE,在深度学习的基础上融入知识,同时具有持续学习才能,曾一举登顶全球威望数据集 GLUE 榜单,初次打破 90 分大关,刷新榜单历史。基于知识图谱和语义表示,打破了阅读了解、对话了解以及跨模态深度语义了解等技术。

经过 ERNIE 系统添加了百科知识、对画质是、篇章结构知识等,使得模型功能可以得以提升。



第三,言语生成是言语与知识技术中的重要组成部分。基于预训练技术的成功阅历,百度提出基于多流机制的言语生成预训练技术,兼顾词、短语等不同粒度的语义信息,分明提升生成效果。百度也探求了多文档摘要生成,经过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。

百度翻译支持 200 多种言语,每天呼应超过千亿字符的翻译央求,支持超过 40 多万家第三方运用,技术上,提出了多智能体结合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。

言语与知识技术的片面打破,在搜索、翻译、对话系统等各类产品、运用中得到突出表现。王海峰引见,经过知识图谱、言语了解和跨模态语义了解等技术,智能搜索协助用户愈加高效、精准、便捷地获取知识和信息。智能搜索再进一步发展,搜索将无处不在。

百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型 PLATO 等,并推出智能对话定制和服务平台 UNIT,可协助开发者高效构建智能对话系统,完成规模化运用。百度翻译支持 200 多种言语,每天呼应超过千亿字符的翻译央求,支持超过 40 多万家第三方运用,技术上,提出了多智能体结合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。



此外,百度言语与知识技术的成果,也在源源不断经过开源开放平台对外输入,在互联网、金融、医疗、教育等诸多范畴发挥作用,提升产业智能化程度的同时,也得到了各方认可,这是近十年来百度言语与知识技术不断提高的最佳证明。



百度在 NPL 上再进一步,百度集团副总裁吴甜接续发布语义了解技术与平台文心、智能文档分析平台 TextMind 和 AI 同传会议处理方案 3 大新产品,同时发布了 6 项晋级,包括智能创作平台的 3 个场景方案、以及智能对话定制与服务平台 UNIT 的 3 项全新晋级。

「我们不断努力于将言语与知识技术凝聚成一系列技术平台和产品,在运用中产生大量价值,为广大开发者和产业实际者提供以言语与知识技术为核心驱动的系列产品。」吴甜表示。

百度研制了知识加强的跨模态深度语义了解方法,经过知识关联跨模态信息,运用言语描画不同模态信息的语义,进而让机器完成从「看清」到「看懂」、从「听清」到「听懂」,即图像和言语、语音和言语的一体化了解。而交融场景图知识的跨模态语义了解预训练技术,则大幅提升了跨模态推理才能。



在机器了解自然言语之外,要与人停止交互,言语生成的义务也必不可少。百度基于多流机制的言语生成预训练技术,在言语生成的过程中,兼顾词、短语等不同粒度的语义信息,提升了生成效果。而多文档摘要生成,则经过图结构语义表示,引入篇章结构知识,加强长文本语义表示才能的同时,处理了跨文档范畴关系建模难题。结合言语生成技术和其他言语与知识技术,百度打造了智能创作平台,已被 20 多家媒体所采用,日调用量超过 35 万次。

百度推出的语义了解技术与平台「文心」,基于深度学习平台飞桨打造,依托抢先的语义了解核心技术,集成优秀的预训练模型、片面的 NLP 算法集、端到端开发套件和平台,提供一站式 NLP 开发与服务,让开发者更简单、高效地定制企业级 NLP 模型。文心经过了大量真实运用场景的淬炼,具有优秀的工业级落地实力。

「文心」片面降低了开发者 90% 的数据标注工夫、90%的算力投入和 85% 的模型开发时长。在现场演示中,百度将 100 条带无情感导向的商品回复注入到「文心」中。结束后还可以对模型效果停止评价,开发者可以经过 API 直接调用该模型,非常方便。

全新发布的智能文档分析平台 TextMind,基于 OCR、NLP 技术,以文档解析为核心才能,支持文档对比与文档审核,具有「多快好省」的核心优势,促进企业办公智能晋级。可以让之前需求 3-5 个工作日的工作 1 分钟完成;公司相应的人力成本可以降低 80% 以上。

百度大脑智能创作平台针对媒体运用场景再晋级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体人更快、更好地创作,可谓切中媒体人的「痛点」。



智能对话定制与服务平台 UNIT 晋级 3 大特性:更智能的义务式对话了解、极致便捷的表格问答和交融通用的新对话引擎。此次 UNIT 全新晋级的三大才能,将进一步降低义务式对话、智能问答的定制成本,并交融通用对话才能,提升交互体验。

全新发布的 AI 同传会议处理方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。吴甜现场展现了如何只用一台电脑和一部手机疾速搭建一套同传服务,只需点点鼠标、打几个字,就能疾速获得专业的同传服务。

数据匮乏、算力不足历来是言语与知识技术研发中面临的瓶颈。为打破瓶颈,百度结合中国计算机学会、中国中文信息学会发起中文自然言语处理数据共建计划——千言,处理数据稀缺成绩。千言一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读了解等7大义务,20余个中文开源数据集。



百度技术委员会主席吴华表示,「将来,我们希望有更多的数据集作者可以参与共建千言,共同推进中文信息处理技术的提高,建设世界范围的中文信息处理影响力。我们计划在将来 3 年,面向 20 多个义务,搜集和建设不少于 100 个中文自然言语处理数据集,覆盖言语与知识技术全部范畴。」

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

3380126 2020-8-26 20:38:54 来自手机 显示全部楼层
加油!不要理那些键盘侠!
回复

使用道具 举报

久流流 2020-8-27 21:11:36 显示全部楼层
不错 支持一个了
回复

使用道具 举报

进小吴 2020-8-28 15:59:54 来自手机 显示全部楼层
是爷们的娘们的都帮顶!大力支持
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies