维基百科定义:Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.
简单的讲,就是辨认自然文本中的实体指称的边界和类别。
发展历史:
命名实体辨认(Named Entity Recognition)这个术语初次出如今MUC-6(Message Understanding Conferences),这个会议关注的次要成绩是信息抽取(Information Extraction),第六届MUC除了信息抽取评测义务还开设了新评测义务即命名实体辨认义务。除此之外,其他相关的评测会议包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。 在MUC-6之前,大家次要是关注人名、地名和组织机构名这三类专业名词的辨认。自MUC-6起,后面有很多研讨对类别停止了更细致的划分,比如地名被进一步细化为城市、州和国家,也有人将人名进一步细分为政治家、艺人等小类。 此外,一些评测还扩展了专业名词的范围,比如CoNLL某年组织的评测中包含了产品名的辨认。一些研讨也触及电影名、书名、项目名、研讨范畴称号、电子邮件地址、电话号码以及生物信息学范畴的专有名词(如蛋白质、DNA、RNA等)。甚至有一些工作不限定“实体”的类型,而是将其当作开放域的命名实体辨认和分类。
CCKS2017开发的中文的电子病例测评相关的数据。评测义务一:https://biendata.com/competition/CCKS2017_1/ 评测义务二:https://biendata.com/competition/CCKS2017_2/ CCKS2018开发的音乐范畴的实体辨认义务。评测义务:https://biendata.com/competition/CCKS2018_2/ (CoNLL 2002)Annotated Corpus for Named Entity Recognition。地址:https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus NLPCC2018开放的义务型对话系统中的口语了解评测。地址:http://tcci.ccf.org.cn/conference/2018/taskdata.php 一家公司提供的,2000条,网址:数据下载 - BosonNLP, 包含人名、地名、机构名、专有名词。下载地址:https://bosonnlp.com/dev/resource