找回密码
 立即注册
搜索

史上最大的实体关系抽取数据集!清华大学自然言语处理团队发布 FewRel

雷锋网 AI 科技回复按,在去年的 EMNLP2018 上,由孙茂松教授指导的清华大学自然言语处理实验室发布了一个大规模精标注关系抽取数据集 FewRel。据了解,这是目前最大的精标注关系抽取数据集。

该数据集包含 100 个类别、70,000 个实例,片面超越了以往的同类精标注数据集。FewRel 不只可以运用在经典的监督/远监督关系抽取义务中,在新兴的少次学习(few-shot learning)义务上也有极大的探求价值和广阔的运用前景。

团队还发布了论文《FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation》,该论文由清华大学自然言语处理实验室的博士生韩旭、姚远,本科生朱昊、于鹏飞、王子云共同合作完成。文章对 FewRel 数据集的构造原理给出了详细解释,感兴味的童鞋可以点击下面的论文地址阅读原文:

    FewRel 网站地址:https://thunlp.github.io/fewrel.html

    论文地址:http://aclweb.org/anthology/D18-1514

关系抽取(relation extraction)是自然言语处理中的一项重要义务,其经过从纯文本中抽取关系理想,来构建和扩大知识图谱(knowledge graph)。例如,从句子「马云创办了阿里巴巴」中,可以抽取出关系理想(马云, 创始人, 阿里巴巴),其中马云和阿里巴巴被称为实体(entity),而创始人则是他们的关系(relation)。关系抽取是知识获取的重要途径,对于了解自然言语和了解世界知识意义严重。

目前的关系抽取模型面临着一个极大的成绩:训练数据不足。相比计算机视觉中的相关义务,言语相关的标注愈加困难,需求标注者掌握相应的知识。就如下表 1 中所示,已有精标注关系抽取数据集在关系数量和实例数量上都较少,这极大限制了关系抽取的发展。
数据集
关系数量 实例数量(不包括 NA)
SemEval-2010 Task 8
9
6,674
ACE 2003-2004
24 16,771
TACRED 42 21,784
FewRel
100
70,000

表 1:常用精标关系抽取数据集对比

作为目前关系抽取范畴最大的精标注数据集,FewRel 中有 100 类关系,共 70,000 个实例,是很好的实验数据集。此前,加州大学圣巴巴拉分校计算机迷信系助理教授王威廉实验室与IBM合作的 NAACL 2019 论文 Sentence Embedding Alignment for Lifelong Relation Extraction就用到了这个数据集。

FewRel 是以 Wikipedia 作为语料库,以 Wikidata 作为知识图谱构建的。


图 1: Wikidata 和 Wikipedia(图来自 Wikidata 和 Wikipedia 官网)

Wikipedia 作为互联网上的自在百科全书,因其宏大的体量和包含的丰富知识而备受 NLP 学者喜爱。与其相对应的知识图谱 Wikidata,则是 Wikipedia 中知识的结构化。目前 Wikidata 中已有超过 5000 万个实体,千余种关系。

清华大学自然言语处理实验室数据集团队首先应用这两者构造了一个远监督的数据集。那么,什么是远监督?知识图谱中曾经包含了许多实体以及他们之间的关系,我们可以假设,若两个实体 h 和 t 间有关系 r,而一个句子中同时出现了 h 和 t,则该句子表达了它们之间的关系 r。经过这种方法可以自动获得大规模的标注数据,但是这一数据是充满噪声的,几乎无法直接用来训练模型。在远监督数据集的基础上,去掉出现反复实体对的句子,去掉少于 1000 个样本的类,最终留下 122 类,共 122,000 个实例,然后停止人工标注。

在这一过程中,每个实例都会有多个标注员停止标注,经过冗余保证标注质量。在此之后再停止一轮质量挑选,最后留下 100 类,共 70,000 句高质量标注的关系抽取数据。最终数据集中,每句的平均长度为 24.99,一共出现 124,577 个不同的单词/符号。

据了解,FewRel 的意义不只仅是一个大规模的数据集。由于关系数量的众多,学界可以在 FewRel 上停止更多维度的探求,其中很重要的一个方向就是少次学习(few-shot learning)。人可以接触很少的例子而学会认知一种新的事物,从这一点出发,深度学习模型能否具有从大批样本中疾速学习的才能呢?目前在 CV 范畴已有了很多这方面的尝试,但在 NLP 当中,尤其是关系抽取上,还缺乏相似的探求。尤其由于以往的关系抽取数据集关系数量和实例数量较少,而通常 few-shot 模型需求在大规模数据上预训练,需求在类别较多的数据上做 sample 评测,所以很难展开相关工作。

FewRel 的出现打开了少例关系抽取的大门,其名字中的 Few 也正是取自 Few-shot。经过下面的表 2 我们可以看到,FewRel 与 CV 中的 few-shot 数据集 mini-ImageNet 具有相反的规模,可见其足以支撑相关的研讨。
数据集 类别数 每类实例
总实例
Omniglot 1,623
20 32,460
mini-ImageNet 100 600
60,000
FewRel 100 700
70,000

表 2:FewRel 与两个 CV 中 Few-Shot 数据集对比

除此之外,FewRel 还可以协助科研人员停止需求较多关系类别的相关研讨,终身学习(lifelong learning)就是其中一个方向。目前大部分关系抽取模型都是在预先定义好的类别中停止探求,而我们知道,世界知识是不断增长的,关系数量也不是停滞的,如何让一个模型能不断接收新的训练样本,同时不至遗忘之前的知识,是一个非常值得探求的课题。而相关实验需求有大量关系类别的精标数据,FewRel 正好满足条件。

据了解,将来 FewRel 团队还将公开其构建数据集时所运用的基于 Wikipedia 的远监督数据,将远监督数据与精标数据相结合,研讨人员可以进一步探求远监督的降噪机制,以及如何运用两种数据停止半监督学习。

由于精标数据可以被视作「种子」,远监督数据可以被看作宏大的语料库,FewRel 还可以用在自动学习(active learning)和自启动算法(bootstrapping)方面的研讨中。但是,近几年来,在关系抽取范畴少有人停止相似探求,其缘由就是数据集的缺乏。伴随着 FewRel 的出现,置信接上去这些重要方向的研讨必然会有所推进。

雷锋网雷锋网

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评16

hqd1368 2019-4-28 11:26:34 显示全部楼层
NLP
回复

使用道具 举报

鱼鹅无关 2019-4-28 11:32:16 显示全部楼层
分享了
回复

使用道具 举报

zheng201010 2019-4-28 11:40:59 显示全部楼层
回复

使用道具 举报

allanboy12 2019-4-28 11:51:10 显示全部楼层
分享了
回复

使用道具 举报

独向隅 2019-4-28 11:55:21 显示全部楼层
分享了
回复

使用道具 举报

1550216188 2019-4-28 12:02:32 显示全部楼层
分享了
回复

使用道具 举报

pollutedfish 2019-4-28 12:12:17 显示全部楼层
分享了
回复

使用道具 举报

分享了
回复

使用道具 举报

2015注册 2019-4-28 12:30:50 显示全部楼层
分享了
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies