智客公社
标题:
自然语言处理(NLP)系列(二)——自然语言生成(NLG)
[打印本页]
作者:
在孤独中
时间:
2022-9-2 19:05
标题:
自然语言处理(NLP)系列(二)——自然语言生成(NLG)
上文我们了解了自然语言理解(NLU),今天我们来聊聊自然语言生成(NLG)。
自然语言生成(NLG)是自然语音处理(NLP)的另一项核心任务,主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。例如:人类对话智能音响,“现在几点了”,智能音响需要先利用NLU技术判断用户的意图,理解用户的需求是什么。然后再利用自然语言生成(NLG)技术回复:“现在是早上7点整”。
[attach]784500[/attach]
自然语言生成(NLG)的六个步骤
1.确定内容(Content Determination)
首先,自然语言生成(NLG)系统需要确定包含在生成的目标文章中的信息。通常数据中包含的信息比最终传达的信息要多。
2.文本结构(Text Structuring)
根据确定的内容,自然语言生成(NLG)系统需要合理的组织文本的顺序。例如:在报道一场乒乓球比赛时,会优先选择表达“比赛时间、地点、球队”等信息,其次再表达“比赛的概况”,最后表达“比赛的结局”。
3.句子聚合(Sentence Aggregation)
将多个信息合并到一个句子里进行表达,会更易于阅读。
4.语法化(Lexicalisation)
在每一句话的内容确定之后,往各种信息之间加一些连接词,使得内容看起来是一个完整的句子。
5.参考表达式生成(Referring Expression Generation|REG)
选择一些单词和短语来构成一个完整的句子,判别出所在的领域,通过REG来进行领域识别,然后使用该领域的词汇。
6.语言实现(Linguistic Realisation)
最后一步,将所有相关的单词和确定的短语组成一个结构完整的句子。
自然语言生成(NLG)生成文本方式有哪些?
1.简单的数据合并:
简单化形式是指将数据转化为文本(通过类似excel的函数)。
2.模板化自然语言生成(NLG)
模板化自然语言生成—(NLG)使用模板驱动模式来显示输出。
3.高级自然语言生成(NLG)
此形式的自然语言生成就与人类一样,其理解意图会考虑到文本的上下文环境,并将结果呈现给用户一种可以轻松阅读和理解的表述中。
自然语言生成(NLG)的应用广泛
1.AI编辑新闻
某些领域中有明显规则的新闻。如体育新闻可借助自然语言生成(NLG)来完成。
2.聊天机器人
例如Sir、智能音响等可进行对话的聊天机器人。
3.自动生成报告
很多都有自己的数据统计和分析工具。这些工具可以产生不同样式的图表,但还是需要依赖人来输出结论和观点。自然语言生成(NLG)可解读这些数据,自动的输出结论和观点。
4.用于下象棋
为了确定自然语言生成(NLG)模型的能力极限,有专家训练了首个用GPT下中国象棋的模型,结果表明GPT能够不错地完成象棋的开局和中局,体现了一定的棋力,这表明自然语言生成(NLG)模型已经不仅仅局限于产生NL(自然语言),实际上一切可用字符串表达出来的内容都有可能生成。其主要原理是:将下棋的过程看作是棋子在棋盘坐标上的一系列移动过程,因此可以将这个过程表示为字符序列,然后让模型按照棋谱的套路进行训练。
5.
用低成本快速生成文本内容
自然语言生成(NLG)技术可用低成本快速生成文本内容。例如法律判决书的摘要,这原本需要人类通读全文再对此进一步摘要总结,而现在可以借助自然语言生成(NLG)技术自动生成摘要,又省时又省力。
6. 看图说话
看图说话的能力也是自然语言生成(NLG)技术的大亮点应用。针对目标图片,自然语言生成(NLG)技术可以生成相关的图片描述,在电商领域的商品描述生成以及盲人辅助场景具有实际意义。
[attach]784501[/attach]
近年来,人工智能发展一直是热门话题,作为人工智能的三大决定性影响因素:算法、算力和数据,在过去的几年中也取得了很大的突破。在深度学习模型的测试过程中,数据集的选择尤为重要。在构建数据集的同时,还需要做好数据的清洗和标注,高质量的数据标注往往能更好地提高模型训练的质量和测试的准确率。
景联文科技是一家专业的数据采集标注公司,专注于AI基础数据服务, 自研数据标注平台,涵盖绝大多数主流标注工具,支持NLP标注业务,数据库里自然语言处理相关训练集超过20万条。NLP标注,对标注人员的理解能力要求较高,景联文科技拥有千人从业经验丰富的数据标注团队,可为NLP领域提供数据采集和数据标注服务,根据客户需求迅速调配有相关经验的标注员,减少与项目的磨合时间,降低沟通成本;支持7*24 小时的客户咨询服务,为客户配备专门的客户经理对项目进行全方面的对接;设有三重标注质检,客户可在平台实时对已标注数据提出问题和建议,标注团队快速处理处理。
景联文科技|AI基础数据服务|数据采集|数据标注|假指纹制作|指纹防伪算法
助力人工智能技术加速数字经济相关产业质量变革,赋能传统产业智能化转型升级
文章著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处;图片源自网络,如有侵权请联系我们进行删除。
作者:
玉兰花下
时间:
2022-9-3 07:00
唉?楼主写完了?不打算多写点么?
作者:
陆见深
时间:
2022-9-3 13:13
赞赞赞赞赞赞赞赞
作者:
lawjean
时间:
2022-9-3 18:42
珍爱生命,果断回帖。
欢迎光临 智客公社 (http://bbs.cnaiplus.com/)
Powered by Discuz! X3.4