中文自然言语处理开放义务引见、数据集、当前最佳结果分享

舍不得离开MM · 2019-8-18 07:57:44

本文整理了中文自然言语处理相关开放义务，详细义务阐明，数据集，相关评价目的，以及当前最佳结果整理。触及指代消歧，对话形状管理，心情分类，实体链接，实体标注 (Entity Tagging)，言语模型，机器翻译，词性标注，问答，关系抽取等义务。

本文内容整理自滴滴NLP实验室Wiki：https://chinesenlp.xyz/#/
目录

指代消歧 (Co-reference Resolution)

对话形状管理 (Dialogue State Management)

心情分类 (Emotion Classification)

实体链接 (Entity Linking)

实体标注 (Entity Tagging)

言语模型 (Language Modeling)

机器翻译 (Machine Translation)

词性标注 (POS Tagging)

问答 (Question Answering)

关系抽取 (Relation Extraction)

情感分析 (Sentiment Analysis)

繁简转化 (Simplified/traditional Conversion)

拼写纠正 (Spell Correction)

文本摘要 (Text Summarization)

话题分类 (Topic Classification)

音译 (Transliteration)

词向量 (Word Embedding)

中文分词 (Word Segmentation)
中文指代消歧 (Co-reference Resolution)

背景

指代消歧 (co-reference resolution) 是目的识一段文本以及将这些文本与其他具有相反指代内容的文本衔接起来。有时这些文本片段的长度为0，表示省略了的代词 (pronouns) 或是名词 (nouns)。

示例

输入:

我的姐姐给我她的狗。很喜欢.

输入:

[我]0的[姐姐]1给[我]0[她]1的[狗]2。[]0很喜欢[]2.

标准评价目的

以下三种准确率 (Precision) /召回率 (Recall) 得到的F1值 (F1-scores) 的平均值:

· MUC.

· B-cubed.

· Entity-based CEAF.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/co-reference_resolution
中文对话形状管理 (Dialogue State Management)

背景

在面向义务的对话系统中，对话形状管理（dialogue state management）系统将用户意图 (user intent) 作为输入，与知识库交互，并预测系统的下一个动作 (action)。自然言语了解组件（NLU）担任分析用户意图，该组件有时与对话形状管理（DM）系统结合成为一个单一的端到端学习组件。系统的下一个动作 (action) 通常包括两种类型：对话动作类型 (dialogue act type) 和插槽值对 (slot-value pairs)。给定下一个系统动作，自然言语生成组件（NLG）将生成对用户的回复。

标准评价目的

分类准确率 (Accuracy):

· 句子级别.

· 对话级别。一个对话是正确的当且仅当该对话中的一切句子都被准确的预测了。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/dialogue_state_management
中文心情分类 (Emotion Classification)

背景

心情分类 (Emotion Classification) 旨在辨认叙说者的心情形状。与情感分析 (Sentiment Analysis) 不同的是，情感分析着重于叙说者对其叙说对象的观点。

示例

输入:

厌恶！你骗我！

输入:

生气

标准评价目的

· 分类准确率(Accuracy).

· F1值.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/emotion_classification
中文实体链接 (Entity Linking)

背景

实体链接辨认文本片段并将它们与标准数据库，知识库，地名词典，维基百科页面等中的对应条目停止链接。文本片段除了专有名词 (proper noun) (例如"Bob") 外，还包括指代名词 (nominals)，例如 "the player"。

示例

输入:

美国国防部长马蒂斯说，与首尔举行的名为“秃鹫”的军事演习每年春天在韩国停止，但2019年将“减少规模”。

输入:

[美国]wiki/United_States国防部长[马蒂斯]wiki/Jim_Mattis说，与[首尔]wiki/Seoul举行的名为“秃鹫”的军事演习每年春天在[韩国]wiki/South_Korea停止，但2019年将“减少规模”。

标准评价目的

· F-score: 正确辨认实体并链接到知识库中正确的概念。

· 在知识库中找不到对应概念的实体 (NIL mentions) 需求被聚类, 并用CEAF(B-cubed的引申目的)目的评价聚类效果。

TAC-KBP / EDL 2017

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/entity_linking
中文实体标注 (Entity Tagging)

背景

实体标注 (Entity Tagging) 义务是辨认实体概念在文本中的提及 (entity mention) 并且标注对应的类型，比如人（PER），组织（ORG），地缘政治实体（GPE），地点（LOC）等。文本提及除了专有名词 (proper noun) (例如"Bob") 外，还包括指代名词 (nominals)，例如 "the player"。

示例

输入:

美国国防部长马蒂斯说，与首尔举行的名为“秃鹫”的军事演习每年春天在韩国停止，但2019年将“减少规模”。

输入:

[美国]GPE国防部长[马蒂斯]PER说，与[首尔]GPE举行的名为“秃鹫”的军事演习每年春天在[韩国]GPE停止，但[2019年]TMP将“减少规模”。

标准评价目的

F-score: 选择正确的文本提及（“mention”）并指定正确类型的。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/entity_tagging
中白话语模型 (Language Modeling)

背景

言语模型 (language model) 可以对计算任何的文本字符串或语料库的概率。好的言语模型对于未观察过的流利的文本应该能输入一个高概率或者低混淆度(perplexity),反之则输入低概率。

示例

输入:

我们体育界是有决计做到为北京2022年冬季奥运会提供坚实的人才基础

输入:

60.2 混淆度(perplexity)

标准评价目的

· 混淆度 (Perplexity) 用来衡量一个言语模型在未见过的的字符串S上的表现。对于一个长度为N的字符串S，言语模型给出概率P(S)，对应的混淆度 (Perplexity)为 2^{-(1/N) log2 P(S)}。其中字符串长度单位可以是字符 (characters) 也可以是单词 (words).

o 言语模型通常以递增方式生成概率, 每个词 (token) 基于左侧的信息得到一个 P(S_i)，对每个P(S_i)取对数并求和即得到混淆度 (Perplexity)公式: 2^{-(1/N) sum_i log2 P(S_i)}.

· 另一个相关的评价目的是 bits-per-character (bpc)，当计算基于字符长度单位的混淆度 (Perplexity)时，Perplexity = 2^bpc.

· 英白话语模型有很成熟的榜单 (leaderboard) 可以追踪最新的结果here . 英白话语模型相关的标准数据集通常都遵照着以下规范:

o 训练集 (Train)/开发集 (dev)/测试集 (test)的标准划分规范

o 言语模型预测的单位（通常是单词而不是字符）

o 固定的 word tokenization

o 处理未在词表中出现的单词 (out-of-vocabulary (OOV))

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/language_modeling
中文机器翻译 (Machine Translation)

背景

机器翻译（MT）将文本从一种言语转换翻译为另一种言语。这里, 我们专注于源言语(source language)或目的言语 (target language)为中文的义务。

示例

输入:

美中两国能够很快达成一个贸易协议。

输入:

The United States and China may soon reach a trade agreement.

标准评价目的

· 直接评价（人工评判）。Amazon Mechnical Turk上的标注人员会看到一个系统生成的翻译和一个人工翻译，然后回答这样一个成绩：“系统翻译有多么准确的表达了人工翻译的含义？”

· Bleu score (Papineni et al 02 ).

o Bleu-n4r4: 词级别 {1,2,3,4}-gram 婚配, 与4条人工参考翻译译文比较

§ brevity penalty: 一个系数，用来惩罚长度短于参考翻译的机器翻译结果。

§ 标准的Bleu计算流程会先对参考译文和机器翻译结果停止符号化 (tokenizition)。

§ 假如中文是目的 (target) 言语, 则运用字符级别 {1,2,3,4}-gram婚配。

§ 当只要1条人工参考翻译译文时运用Bleu-n4r1评价。

o 标准Bleu有很多重要的变种:

§ 大小写敏感 vs. 大小写不敏感

§ Brevity penalty 触发条件: 当机器翻译结果短于最短的参考译文 (reference) 或者短于最接近的参考译文 (reference)。

· NIST. Bleu的一种变体，赋予少见的n-gram更高的权重。

· TER (Translation Edit Rate). 计算机器翻译与人工参考译文之间的编辑间隔 (Edit distance)。

· BLEU-SBP ((Chiang et al 08)[http://aclweb.org/anthology/D08-1064] ). 处理了Bleu的解耦（decomposability) 成绩，在Bleu和单词错误率获得一个折中。

· HTER. 修正为一个良好的翻译所需求的人工编辑次数 (the number of edits)。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/machine_translation
中文词性标注 (Part-of-speech tagging)

背景

词性标注义务是将给定句子中的每个单词从给定标签组 (tag set)中赋予一个词性标签 (part-of-speech tag)。

示例

输入:

疾速的棕色狐狸跳过了懒散的狗

输入:

[疾速] VA [的] DEC [棕色] NN [狐狸] NN [跳过] VV [了] AS [懒散] VA [的] DEC [狗] NN

标准评价目的

在结合分割标注的义务 (the joint segmentation and tagging task) 中，计算基于词级别 (word-level) 的准确率 (Precision)和召回率 (Recall)，以及F1-score.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/pos_tagging
中文问答 (Question Answering)

背景

问答 (question answering) 义务试图回答自然言语方式提出的成绩. 答案有能够来自结构化的数据库中，也能够来自非结构化的文本片段。

示例

输入:

世界上最大的国家是什么?

输入:

俄国

标准评价目的

· 典型的目的包括了准确性 (accuracy), 完全婚配 (exact match) 以及F1-score。

· 有些义务要求系统能在提供的文本中定位答案，而不是前往一个包含答案的字符串。

· 某些义务的测试集中包括了一些无法从提供的数据库或者文本中给出答案的成绩，模型需求前往“不存在答案”才能得分。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/question_answering
中文关系提取 (Relation Extraction)

背景

给定两个实体 (entity)，辨认它们的关系并对关系停止分类。

示例

输入:

[李晓华]和她的丈夫[王大牛]前日一同去[英国]游览了。

输入:

(entity1: 李晓华, entity2: 王大牛, relation: 夫妻)

`

标准评价目的

准确率 (Precision), 召回率 (Recall), F1

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/relation_extraction
中文情感分析 (Sentiment Analysis)

背景

情感分析 (Sentiment Analysis) 从文本中辨认提取文本的客观态度信息。

示例

输入:

总的感觉这台机器还不错，适用的有：阴阳历显示，工夫与日期疾速转换, 记事本等。

输入:

正向 (Positive)

标准评价目的

准确度 (Accuracy)

· 在测试集上正确分类的样本的百分比。

F1-score

· 准确率和召回率的一种加权平均目的。

· Wiki百科

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/sentiment_analysis
中文繁简转化 (Simplified/Traditional Conversion)

背景

简体中文/繁体中文转换将简体中文字符转换为繁体中文字符，或反之。

示例

输入:

苟利国家生死以,岂因祸福避趋之.

输入:

苟利國家生死以,豈因禍福避趨之.

标准评价目的

准确率(Accuracy)

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/simplified_traditional_Chinese_conversion
中文拼写纠错 (Spell Correction)

背景

拼写纠错 (Spell Correction)义务的目的是在文本中查找并更正拼写错误 (typographical errors).

示例

输入:

1986年毕业于国防科技大学计算机运用专业，获学时学位。

输入:

1986年毕业于国防科技大学计算机运用专业，获学士学位。

(时 -> 士)

标准评价目的

· 辨认(Detection): 辨认一段文字中一切拼写错误字符的地位，应该做到与正确参考 (gold standard) 相反.

· 纠正(Correction): 辨认的错误字符以及纠正错误字符，应与正确参考 (gold standard)相反.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/spell_correction
中文文本摘要 (Text Summarization)

背景

文本摘要义务的输入是长的文本文档，义务的目的是将较长的文本转换成简短，流利而准确的文本摘要。

示例

输入:

较早进入中国市场的星巴克，是不少小资钟情的品牌。相比在美国的平民笼统，星巴克在中国就显得“高端”得多。用料并无差别的一杯中杯美式咖啡，在美国仅约合人民币12元，国内要卖21元，相当于贵了75%。第一财经日报

输入:

媒体称星巴克美式咖啡售价中国比美国贵75%。

标准评价目的

ROUGE将自动生成的摘要与参考摘要停止比较, 其中ROUGE-1衡量unigram婚配状况，ROUGE-2衡量bigram婚配，ROUGE-L记录最长的公共子序列。ROUGE目的的计算可以以字符 (character) 为单位也能以字 (word) 为单位。

详细完成:

· http://www.berouge.com/Pages/default.aspx

· https://github.com/lancopku/superAE/blob/master/data/script/PythonROUGE.py

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/text_summarization
中文话题分类 (Topic Classification)

背景

话题分类 (Topic Classification) 根据文本主题内容为文本赋予标签或类别。主题 (topic) 有时广泛，相似于流派（旧事，体育，艺术），但有时也会有像标签 (hashtag) 一样的细粒度。

示例

输入:

[国足]有决计了中国国奥队获得热身赛三连胜

输入:

体育

标准评价目的

· 准确率 (Accuracy): 正确分类的样本的百分比。

THUCNews.

新浪旧事RSS订阅频道数据，数据工夫范围从2005年到2011年，其中包含7400万条旧事文件（2.19 GB），14个主题，全部采用UTF-8纯文本格式。

评价目的

· Accuracy

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/topic_classification
中文音译 (Transliteration)

背景

音译义务通常在运用不同字母和声响系统的言语之间翻译专有名词和技术术语。

示例

输入:

约翰伍兹 (yue han wu zi)

输入:

John Woods

标准评价目的

· Word Accuracy in Top-1 (ACC)

· Fuzziness in Top-1 (Mean F-score)

· Mean Reciprocal Rank (MRR)

· MAP measures precision

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/transliteration
中文词向量 (Word Embeddings)

背景

词向量 (Word Embeddings)经过对大量的文本语料停止训练，对每一个词 (word type) 前往一个n维的实数向量。向量表征了每个词的单词的句法和语义信息，这些信息可用于处理各种NLP义务。在中文义务中，词向量的单位除了词 (word) 以外也可以是字 (character) 或者 sub-character.

示例

输入:

大文本语料库

输入:

vec(“查询”) = [-0.059569, 0.126913, 0.273161, 0.225467, -0.185914, 0.018743, -0.18434, 0.083859, -0.115781, -0.216993, 0.063437, -0.005511, 0.276968,…, 0.254486]

标准评价目的

词向量的表现既可以停止外部义务 (intrinsically) 评价(比如观察相似的单词能否具有相近的词向量)，也可以经过外部义务 (extrinsically) 的方式评价，既经过运用新的词向量能为下游NLP义务(例如情感分析)的结果带来多少提升。

外部义务评价(intrinsic evaluation)次要关注:

词语相关性 (word relatedness)：在中文词汇相似性数据集wordsim-240和wordsim-296（英语相关资源的翻译）上，人类标记分数与词向量的內积之间的Spearman correlation (⍴)。

单词类比 (word analogy)：评价单词类比义务的准确率（例如：“男人：女人::父亲：X”，其中X由余弦相似性 (cosine distance) 选择）单词类比义务通常包括以下类型的词（1）国家首都（2）省份（3）家庭关系 (family relationships)

外部义务评价(extrinsic evaluation):

· 在中文情感分析 (sentiment analysis) 义务上的准确率 (Accuracy)

· 在中文命名实体辨认 (named entity recognition) 义务上的F1 score

· 在中文词性标注 (part-of-speech tagging) 义务上的准确率 (Accuracy)

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/word_embedding
中文分词 (Word Segmentation)

背景

中文里每个汉字即为一个字符 (character)。一个单词通常由一个或多个字符 (character) 组成。单词之间没有空格。分词 (segmentation) 是将一系列无空格间隔字符串分割成一系列单词的过程。

示例

输入:

亲请问有什么可以帮您的吗？

输入:

亲请问有什么可以帮您的吗？

标准评价目的

单词级别的 F1-score:

Gold: 共同创造美妙的新世纪 —— 二○○一年新年贺词

Hypothesis: 共同创造美好的新世纪 —— 二○○一年新年贺词

Precision = 9 / 11 = 0.818

Recall = 9 / 10 = 0.9

F1 = 0.857

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/word_segmentation
往期精品内容引荐

6部高分美剧，边看边提升口语，坚持每天学习，返200奖学金收费学！

元学习-从小样本学习到疾速强化学习-ICML2019

8月最新-《可解释机器学习-Christoph Molnar》-旧书分享

2019年暑期实习、秋招深度学习算法岗面试要点及答案分享

深度学习硬件的过去、如今和将来-Yann LeCun

【干货】史上最全的PyTorch学习资源汇总

Tensorflow完成的深度NLP模型集锦

吴恩达新课-《CS230-深度学习基础-2019年春》课程视频分享

收费中文书籍-《神经网络与深度学习》中文版引荐

Coursera收费新课-面向AI、机器学习和深度学习的TensorFlow入门引荐

从入门到知晓-Tensorflow深度强化学习课程

2019年旧书-《PyTorch实战-一个处理成绩的方法》精品教材分享

斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享

收费自然言语处理(NLP)课程及教材分享

爱仙剑爱神雕 · 2019-8-18 08:01:59

@Xizi_EgqQHIzR · 2019-8-19 10:24:30

楼猪V5啊

3380126 · 2019-8-20 07:23:24

这帖子写的不错

亚当的早晨 · 2019-8-20 21:24:25

没写完吧，等楼主更新哦~

		自动登录	找回密码
密码			立即注册

中文自然言语处理开放义务引见、数据集、当前最佳结果分享

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们