历史最全自然言语处理测评-数据集、基准模型、语料库、排行榜

王小样 · 2019-12-5 14:09:32

本资源会中文自然言语处理一列具有代表性的义务，以及对应的数据集，做为测试基准的数据集。这些数据集会覆盖不同的义务、数据量、义务难度。包含了中文自然言语处理相关的义务，触及数据集、基准(预训练)模型、语料库、排行榜，相对值得收藏。

本资源整理自网络，源地址：https://www.toutiao.com/a1651999333944328

中文义务基准测评(ChineseGLUE)-排行榜 Leaderboard

分类义务(v1版本,正式版)

注：' 代表对原数据集挑选后获得，数据集与原数据集不同；TNEWS:文本分类(Acc)；LCQMC:语义相似度(Acc)；XNLI/MNLI:自然言语推理(Acc),MNLI-m:MNLI-matched，MNLI-mm:MNLI-mismatched；

DRCD & CMRC2018:抽取式阅读了解(F1, EM)；CHID:成语多分类阅读了解(Acc)；BQ:智能客服问句婚配(Acc)；MSRANER:命名实体辨认(F1)；iFLYTEK:长文本分类(Acc)；

Score是经过计算1-9数据集得分平均值获得；

阅读了解义务

注：阅读了解上述目的中F1和EM共存的状况下，取EM为最终目的

分类义务(vO版本，初版)

ChineseGLUE的定位 Vision

为更好的服务中白话语了解、义务和产业界，做为通用言语模型测评的补充，经过完善中白话语了解基础设备的方式来促进中白话语模型的发展

为什么我们需求一个中文义务的基准测试？

首先，中文是一个大语种，有其本身的特定、大量的运用。

如中文运用人数近14亿，是结合国官方言语之一，产业界有大量的的冤家在做中文的义务。

中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游义务。

其次，相对于英文的数据集，中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的；多数的论文描画的模型是在英文数据集上做的测试和评价，那么对于中文效果如何？不得而知。

再次，言语了解发展到当前阶段，预训练模型极大的促进了自然言语了解。

不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同义务上的公开测试，

导致技术的发展和运用还有不少间隔，或者说技术运用上的滞后。

那么，假如有一个中文义务的基准测试，包含一批大众能广泛运用和测评的数据集、适用中文义务的特点、能紧跟当前世界技术的发展，

能缓解当前中文义务的一些成绩，并促进相关运用的发展。

中文义务的基准测试-内容体系 Contents

Language Understanding Evaluation benchmark for Chinese(ChineseGLUE) got ideas from GLUE, which is a collection of resources for training, evaluating, and analyzing natural language understanding systems. ChineseGLUE consists of:

1）中文义务的基准测试，覆盖多个不同程度的言语义务

A benchmark of several sentence or sentence pair language understanding tasks. Currently the datasets used in these tasks are come from public. We will include datasets with private test set before the end of 2019.

2）公开的排行榜

A public leaderboard for tracking performance. You will able to submit your prediction files on these tasks, each task will be evaluated and scored, a final score will also be available.

3）基线模型，包含末尾的代码、预训练模型

baselines for ChineseGLUE tasks. baselines will be available in TensorFlow,PyTorch,Keras and PaddlePaddle.

4）语料库，用于言语建模、预训练或生成型义务

A huge amount of raw corpus for pre-train or language modeling research purpose. It will contains around 10G raw corpus in 2019;

In the first half year of 2020, it will include at least 30G raw corpus; By the end of 2020, we will include enough raw corpus, such as 100G, so big enough that you will need no more raw corpus for general purpose language modeling. You can use it for general purpose or domain adaption, or even for text generating. when you use for domain adaption, you will able to select corpus you are interested in.

数据集引见与下载 Introduction of datasets

1. LCQMC 口语化描画的语义相似度义务 Semantic Similarity Task

输入是两个句子，输入是0或1。其中0代表语义不相似，1代表语义相似。

数据量：训练集(238,766)，验证集(8,802)，测试集(12,500)

例子：

1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1

2.飞行员没钱买房怎样办？[分隔符] 父母没钱买房子 [分隔符] 0

2. XNLI 言语推断义务 Natural Language Inference

跨言语了解的数据集，给定一个前提和假设，判别这个假设与前提能否具有蕴涵、对立、中性关系。

数据量：训练集(392,703)，验证集(2,491)，测试集(5,011)

例子：

1.从概念上看 , 奶油支出有两个基本方面产品和地理 .[分隔符] 产品和地理是什么使奶油抹霜工作 . [分隔符] neutral

2.我们的一个号码会非常详细地执行你的指示 [分隔符] 我团队的一个成员将非常准确地执行你的命令 [分隔符] entailment

原始的XNLI覆盖15种言语（含低资源言语）。我们选取其中的中文，并将做格式转换，使得非常容易进入训练和测试阶段。

3.TNEWS 昔日头条中文旧事（短文本）分类 Short Text Classificaiton for News

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)

例子：

6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，之后她的两个行为给本人加分_!_佟丽娅,网络谣言,愉快大本营,李浩菲,谢娜,观众们

每行为一条数据，以_!_分割的个字段，从前往后分别是旧事ID，分类code，分类称号，旧事字符串（仅含标题），旧事关键词

4.INEWS 互联网情感分析义务 Sentiment Analysis for Internet News

数据量：训练集(5,356)，验证集(1,000)，测试集(1,000)

例子：

1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民称心教育_!_近3年来，九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目的，努力办好人民称心教育，促进了义务教育平衡发展，乡村贫穷地区办学条件改善。目前，该市特征教育学校有70所 ......

每行为一条数据，以_!_分割的个字段，从前往后分别是情感类别，数据id，旧事标题，旧事内容

5.DRCD 繁体阅读了解义务 Reading Comprehension for Traditional Chinese

台達閱讀了解資料集 Delta Reading Comprehension Dataset (DRCD)(https://github.com/DRCKnowledgeTeam/DRCD) 屬於通用領域繁體中文機器閱讀了解資料集。本資料集希冀成為適用於遷移學習之標準中文閱讀了解資料集。

数据格式和squad相反，假如运用简体中文模型停止评测的时分可以将其繁转简(本项目已提供)

6.CMRC2018 简体中文阅读了解义务 Reading Comprehension for Simplified Chinese

https://hfl-rc.github.io/cmrc2018/

数据格式和squad相反

7. BQ 智能客服问句婚配 Question Matching for Customer Service

该数据集是自动问答系统语料，共有120,000对句子对，并标注了句子对相似度值，取值为0或1（0表示不相似，1表示相似）。数据中存在错别字、语法不规范等成绩，但愈加贴近工业场景。

数据量：训练集(100,000)，验证集(10,000)，测试集(10,000)

例子：

1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0

2.为什么我的还没有额度 [分隔符] 为啥没有额度！！[分隔符] 1

8. MSRANER 命名实体辨认 Name Entity Recognition

该数据集共有5万多条中文命名实体辨认标注数据（包括人名、地名、组织名），分别用nr、ns、nt表示，其他实体用o表示。

数据量：训练集(46,364)，测试集(4,365)

例子：

1.听说/o 应/o 老友/o 之/o 邀/o ，/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o

2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫穷/o 先生/o 。/o

9. THUCNEWS 长文本分类 Long Text classification

该数据集共有4万多条中文旧事长文本标注数据，共14个类别: "体育":0, "文娱":1, "家居":2, "彩票":3, "房产":4, "教育":5, "时兴":6, "时政":7, "星座":8, "游戏":9, "社会":10, "科技":11, "股票":12, "财经":13。

数据量：训练集(33,437)，验证集(4,180)，测试集(4,180)

例子：

11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用　　爱国者MP5简介:　　"爱国者"北京华旗资讯，作为国内知名数码产品制>造商。1993年创立于北京中关村，是一家努力于......

每行为一条数据，以_!_分割的个字段，从前往后分别是类别ID，类别称号，文本ID，文本内容。

10.iFLYTEK 长文本分类 Long Text classification

该数据集共有1.7万多条关于app运用描画的长文本标注数据，包含和日常生活相关的各类运用主题，共119个类别："打车":0,"地图导航":1,"收费WIFI":2,"租车":3,….,"女性":115,"运营":116,"收款":117,"其他":118(分别用0-118表示)。

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)

例子：

17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的将来城市中穿越打拼。感觉很山寨功夫熊猫，自在度非常高，可以做很多你想做的事情......

每行为一条数据，以_!_分割字段，从前往后分别是类别ID，类别称号，文本内容。

11.CHID 成语阅读了解填空 Chinese IDiom Dataset for Cloze Test

https://arxiv.org/abs/1906.01265
成语完形填空，文中多处成语被mask，候选项中包含了近义的成语。

12. 更多数据集添加中，Comming soon!

更多数据集添加中，假如你有定义良好的数据集，请与我们获得联络。

数据集下载全体下载

或运用命令：

wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

中文义务基准测评(ChineseGLUE)

-排行榜-

各义务对比 Evaluation of Dataset for Different Models

基线模型-代码 Start Codes for Baselines

我们为您提供了可以“一键运转”的脚本来辅助您更快的在指定模型上运转特定义务。

以在 Bert 模型上运转“BQ 智能客服问句婚配”义务为例，您可以直接在 chineseGLUE/baselines/models/bert/ 下运转 run_classifier_bq.sh 脚本。

cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.sh

该脚本将会自动下载“BQ 智能客服问句婚配”数据集（保存在chineseGLUE/baselines/glue/chineseGLUEdatasets/bq/ 文件夹下）和Bert模型（保存在 chineseGLUE/baselines/models/bert/prev_trained_model/ 下）。

详细内容详见：基准模型-模型训练

语料库：言语建模、预训练或生成型义务 Corpus for Langauge Modelling, Pre-training, Generating tasks

可用于言语建模、预训练或生成型义务等，数据量超过10G，次要部分来自于nlp_chinese_corpus项目

当前语料库按照【预训练格式】处理，内含有多个文件夹；每个文件夹有许多不超过4M大小的小文件，文件格式符合预训练格式：每句话一行，文档间空行隔开。

包含如下子语料库（总共14G语料）：

1、旧事语料: 8G语料，分成两个上下两部分，总共有2000个小文件。

2、社区互动语料：3G语料，包含3G文本，总共有900多个小文件。

3、维基百科：1.1G左右文本，包含300左右小文件。

4、回复数据：2.3G左右文本，含有811个小文件，合并ChineseNLPCorpus的多个回复数据，清洗、格式转换、拆分成小文件。

这些语料，你可以经过下面这两个项目，清洗数据并做格式转换获得；

你也可以经过邮件央求（chineseGLUE#163.com）获得单个项目的语料，告知单位或学校、姓名、语料用途；

如需获得ChineseGLUE项目下的一切语料，需成为ChineseGLUE组织成员，并完成一个（小）义务。

Reference:

1、GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

2、SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

3、LCQMC: A Large-scale Chinese Question Matching Corpus

4、XNLI: Evaluating Cross-lingual Sentence Representations

5、TNES: toutiao-text-classfication-dataset

6、nlp_chinese_corpus: 大规模中文自然言语处理语料 Large Scale Chinese Corpus for NLP

7、ChineseNLPCorpus

8、ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations

9、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

10、RoBERTa: A Robustly Optimized BERT Pretraining Approach

dawei3857 · 2019-12-5 20:13:36

鄙视楼下的顶帖没我快，哈哈

ou526411 · 2019-12-6 22:45:22

我了个去，顶了

SīsTērs · 2019-12-7 19:13:00

我了个去，顶了

		自动登录	找回密码
密码			立即注册

历史最全自然言语处理测评-数据集、基准模型、语料库、排行榜

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们