找回密码
 立即注册
搜索

不谈技术细节,自然言语处理能做些什么

深度神经网络的迸发使得机器学习遭到了广泛的关注, 而NLP(自然言语处理)又是其中最受关注的部分。ThoughtWorks正在尝试NLP技术的商业化落地,例如对话机器人、针对特定范畴的机器翻译等。基于NLP的重要性和其最近几年的飞速发展, 它成为了人们常常会讨论的一个盛行话题。对于专业人士来说, 通常会聊到词向量, LSTM, attention等技术。但是作为一个非NLP专家, 我们要聊些什么呢?或者说我们应该学些什么呢?本文就从运用角度来总结一下自然言语处理能做哪些事, 以及在我眼中NLP有潜力去做哪些事,协助大家建立对NLP技术初步的了解。

NLP能做哪些事?

NLP的集大成者 – 语音助手




人类研讨语音助手已有几十年的历史, 在科幻电影中也常有提及,不过直到2011年,苹果发布Siri, 这种奥秘的工具才获得了大众的关注。在Siri之后, 涌现出了以Amazon Alexa, Google Assistant, Microsoft Cortana为代表的一大票语音助手。早期的语音助手功能非常有限, 也很少有人运用。经过了这些年的发展, 如今的语音助手曾经有了很大的提高, 曾经能很好地处理天气查询, 信息检索, 添加日程, 播放音乐等简单义务。此外, 部分语音助手还支持声纹辨认, 提升了安全性。假如你最近没有运用过上述的语音助手, 我激烈建议你去试用一下!

虽然NLP在语音助手运用中发挥了重要作用,但照旧不足以支撑这样一个复杂的综合性系统。语音助手基本上运用了下文中提到的一切NLP技术以及很多其他非NLP技术。创建一个残缺的语音助手需求大量的资源, 是一个门槛很高的范畴。

基于文本分类的运用

文本分类就是将非结构化文本数据划分到事前定义好的标签类中, 这是NLP技术的一大分支, 很多其他技术都依赖于它。由于分类义务不同, 标签的定义也不同, 比如在综合用户回复分析中, 标签可以定义为 “负面”, “中性”, “正面”。而在酒店回复分析中就可以把标签定义为”服务好”, “环境好”, “环境差”等。




由于标签体系可以灵敏调整, 文本分类被广泛运用到众多范畴中, 下面列出一些典型的运用:
    渣滓邮件的检验:渣滓邮件检测的方法有很多, 其中一类就是应用文本分类技术来过滤渣滓邮件。 旧事自动分组:对于分类旧事网站, 将旧事归类展现是一项耗费宏大的义务, 这里可以经过自动文本分类技术来自动化这一操作, 提升分类效率和用户阅读体验。 用户情感分析(回复倾向性分析):经过对用户回复停止分类(高兴or绝望)处理, 可以得到用户对商家的态度, 该方法曾经在许多点评类运用中得到运用。 文档自动标签, 搜索引擎优化(SEO):经过文档自动分类得到旧事或web页面的标签, 将这些标签加入到网站的Head中可以起到优化搜索引擎排名的作用。

基于命名实体辨认(NER)的运用

命名实体辨认的目的是定位文本中出现的预定义分类, 包括人名, 组织称号, 地名, 日期和工夫, 数量等等。下面以一个例子来详细阐明:

原文:

“Jim bought 300 shares of Acme Corp. in 2006.”

标注后(括号内为实体类型):

“[Jim](Person)bought 300 shares of [Acme Corp.] (Organization)in [2006](Time).”

NER也有运用场景,下面是几个例子:
    旧事标注:和文本分类不同, 这里可以运用NER技术将与文章相关的人物, 地点都以标签的方式标注出来, 方便用户对某个人物或地点停止索引。 搜索引擎:可以经过运用命名实体辨认来抽取web页面中的实体, 后续可以运用这些信息来提高搜索效率和准确度。 从商品描画中自动提取商品类别, 品牌等信息, 提高货物上架效率, 在咸鱼等运用上曾经完成了相似功能。 工具易用性提升, 例如从短信息或邮件中提取工夫和地点等实体, 从而完成点击工夫直接创建日历, 点击地址直接跳转到地图App等便捷操作。

其他




除了下面说到的几种分类之外, NLP还能做很多凶猛的事情:
    机器翻译:机器翻译是语音助手外另一个为大家熟知的NLP运用, 也是商业化最早的NLP运用。金山快译作为当年机器翻译市场的佼佼者是我最早接触到的几款软件之一。机器翻译刚出现时准确性较低, 不过随着近年来深度神经网络在机器翻译范畴的成功运用, 目前的机器翻译曾经有了很高的可用性。Google translate曾经率先在消费环境部署了基于深度神经网络的翻译工具,是这方面的杰出代表。 拼写检查(拼写纠错):包括单词拼写检查, 句子正确性检查。拼写检查在搜索引擎上得到广泛运用, 当你在百度搜索”自然寓言处理”的时分, 百度会自动显示”自然言语处理”的相关结果。除了搜索引擎外, 拼写检查也广泛运用在各种文字处理系统中。

NLP有希望做哪些事?

下面讲了很多运用案例, 其中大部分曾经比较成熟甚至曾经投入到了商业运用中。下面再罗列一些我以为目前不是很成熟但是很有潜力的NLP技术:
    句子, 段落的相似性检测:词语的相似度检测曾经很成熟, 句子和章节的相似性检测的研讨也在停止中。相似性检测有很广的运用空间, 可以用来处理问答论坛上反复成绩, 文章抄袭成绩等。 自动文本摘要:即为文章生成一个简短的总结性段落。当我们写文章时很多人会写一个TLNR(太长不读版), 文本摘要技术可以自动为我们生成这个TLNR, 节省我们的工夫。在信息爆炸时代, 文本摘要技术有着宏大的潜力。 自动问答:该技术的价值无需赘述, 不过目前的问答机器人都只能在特定范畴回答一些简单地成绩, 通用的问答机器人目前还无法完成, 这将是一个宏大的应战。该范畴的一款落地运用来自Google, 在其邮件运用Inbox中曾经末尾提供邮件疾速回复功能(根据邮件自动生成三个能够的回复供用户选择), 虽然目前生成的回复都很简短, 但曾经有了一定的适用性。

总结





下面引见了几种NLP技术和运用场景, 但是NLP技术触及的范围远不止这些, 将NLP技术与音频处理、图像处理等技术结合, 又会出现诸如视频字幕生成, 图片描画生成等等风趣的运用。可以说只需有人类, 有言语, 就存在NLP运用的能够性。也正是由于NLP技术触及范围广泛,才吸引了越来越多企业的关注,并在其之上构建各种智能系统,给我们的生活带来了便利。

了解了这些运用,不妨花几分钟思索一下, 对于你目前接触到的业务, NLP技术能给客户带来哪些价值呢?

文/韩慧昌

原文:https://insights.thoughtworks.cn/nlp/

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

关东名侦探 2018-12-17 07:00:14 显示全部楼层
专业抢沙发的!哈哈
回复

使用道具 举报

给你我的小心心
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies