Facebook 开源自然言语处理模型，可检索文档回答成绩

—Mercenary— · 2020-9-29 18:57:26

Facebook 和 AI 初创公司 Hugging Face 明天开源了一种 AI 模型检索加强生成（RAG），这是一种自然言语处理模型，可以查找和解释上下文信息来完成一系列义务。

RAG 可以经过经过动态地改变或补充其外部知识，使研讨人员可以控制模型掌握的内容，研讨人员不必对其计算才能停止再培训就可以获得最先进的结果。

从明天末尾，RAG 可以作为 Hugging Face 转换器库的组件提供，与新的数据库集成，提供 RAG 所依赖的索引知识源。

RAG 整合知识的“后期交融”方式

自然言语了解范畴的前沿工作曾经产生了通用模型，这些模型虽然常常存在缺陷，但是是可以推行的。到目前为止，大多数模型曾经运用于无需知识背景就可以生成处理方案的义务中，比如心情分析这类义务。

相比之下 RAG 运用输入数据从像 Wikipedia 这样的数据库中检索相关的文档。例如，给出一个“地球上第一个哺乳动物是什么时分出现的？”的成绩，RAG 能够会提供“哺乳动物”、“地球历史”、“哺乳动物退化”等文献作为上下文与输入衔接，然后输入模型以生成输入文本。

根据 Facebook 的说法，RAG 应用了一种“后期交融”的方式来整合检索到的文档中的知识，这意味着它在聚合最终的预测分数之前对文档成绩对停止答案预测。当它可以访问包含答案线索的文档时，假如答案不是逐字陈述的，RAG 的功能会进一步提高。在某些状况下，RAG 甚至会生成答案，而这些答案并不包含在检索到的任何文档中。

RAG 擅长知识密集型自然言语成绩

Facebook 称，当对诸如包含来自 Google 搜索用户的成绩的 NaturalQuestions 之类的开放域数据集停止基准测试时，RAG 显示了在找不到答案的状况下生成正确答案的窍门。

RAG 还擅长于知识密集型的自然言语成绩，Facebook 经过创建受 Jeopardy 启示的成绩停止了探求。与其他同类模型相比，RAG 产生的成绩愈加详细、多样且愈加真实。这也许是由于 RAG 可以应用从多个来源获得的不同信息综合出不同的答案的才能。

RAG 的研讨经理 Sebastian Riedel 表示，虽然 RAG 在 Facebook 的消费中没有运用，但其背后的团队正在积极迭代以减少潜在的成见。他们将培训数据集中的文档限制在 Wikipedia 上，他们以为 Wikipedia 比当今许多言语模型的网络爬虫更安全。

RAG 的最大优势：灵敏性

研讨人员正在探求 RAG 的一个版本，这个版本可以最大程度地降低剩余风险，以便达到一向的输入安全的程度。他们正在研讨如何扩展 RAG，使其多通道化，并使其同时运用多个知识源停止操作。

Sebastian Riedel 说：“RAG 的真正优势在于它的灵敏性，要改变一个预先训练过的言语模型所知道的东西，需求用新的文档对整个模型停止再训练。经过 RAG，我们可以经过交换用于知识检索的文档来控制它所知道的内容。我们在带有 RAG 的 NaturalQuestions，CuratedTrec 和 WebQuestions 上获得了非常出色的结果，表明可以用生成的而不是提取的读取器来完成最新的机器读取功能。”

Facebook 以为 RAG 具有广阔的潜力，它断言这将使研讨人员可以仅用几行代码就可以为知识密集型义务部署处理方案。

Facebook 方面称，“RAG 允许 NLP 模型绕过再培训步骤，访问和提取最新的信息，然后运用生成器输入结果。我们预见将来对知识密集型义务的研讨潜力，这些义务就像明天的心情分析这样的轻量级知识义务一样简单易懂。”

技术编辑：芒果果丨发自思否编辑部
公众号：SegmentFault

章子仪 · 2020-9-30 07:13:15

边撸边过

sky5377 · 2020-9-30 22:48:20

支持支持再支持

好好的不行 · 2020-10-1 20:38:42

1v1飘过

		自动登录	找回密码
密码			立即注册

Facebook 开源自然言语处理模型，可检索文档回答成绩

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们