智客公社
标题:
什么是自然言语处理(NLP)?
[打印本页]
作者:
apologize21gun
时间:
2021-5-21 06:31
标题:
什么是自然言语处理(NLP)?
【51CTO.com快译】自然言语处理(NLP)的定义
自然言语处理(NLP)是人工智能的一个分支,它使计算机可以像人类一样了解、处理和生成言语。搜索引擎、机器翻译以及语音助理均由该技术提供支持。
虽然这一术语最后指的是人工智能系统的阅读才能,但如今曾经成为一切计算言语学的一种粗浅说法。其子类别包括自然言语生成(NLG)——计算机自行创建通讯的才能和自然言语了解(NLU)(了解俚语、发音错误、拼写错误和言语其他变体的才能)。
自然言语处理(NLP)的工作原理
自然言语处理(NLP)经过机器学习停止工作。机器学习系统像其他任何方式的数据一样存储单词及其组合方式。短语、句子、有时甚至整本书的内容都被输入机器学习引擎,并在其中运用语法规则或人们的理想言语习气,或两者兼而有之停止处理。然后,计算机运用这些数据来查找形式并推断出接上去的结果。以翻译软件为例:在法语中,“我要去公园”是“Je vais au parc”,因此机器学习预测“我要去商店”也将以“Je vais au”扫尾。
自然言语处理(NLP)的运用
机器翻译是一种功能弱小的自然言语处理(NLP)运用程序,但是搜索是最常用的一种用法。每次人们在谷歌或Bing搜索引擎中查找内容时,都人为将数据输入到系统中。当单击搜索结果时,搜索引擎会将其解释为确认其找到的结果是正确的,并在当前运用这一信息更好地停止搜索。
聊天机器人的工作方式与其相反:它们与Slack、Microsoft Messenger和其他聊天程序集成在一同,可以读取人们运用的言语,然后在键入触发短语时将其打开。当Siri和Alexa等语音助理听到诸如“嘿,Alexa”之类的短语时,它们就会有回应,而这就是为什么批判人士指摘这些人工智能程序不断在停止监听的缘由:假如不这样做,它们永远不知道人们什么时分需求它们。除非人们本人打开运用程序,否则自然言语处理(NLP)程序必须在后台运转,并等待这一短语的出现。
自然言语处理(NLP)的示例
数据有多种方式,但是最大的未运用数据池由文本组成。专利、产品规格、学术出版物、市场研讨、旧事以及社交媒体的文章,一切这些都以文本作为次要组成部分,并且文本的数量正在不断增长。将技术运用到语音,数据池将会变得更大。以下是组织如何运用自然言语处理(NLP)技术的三个示例:
(1)全球管理咨询服务商埃森哲公司运用自然言语处理(NLP)技术分析合同:“埃森哲法律智能合同探求(ALICE)”工具曾经协助该公司的2,800名专业人士处理上百万份合同,经过执行文本搜索,来搜索合同条款。ALICE工具运用“嵌入单词”逐段阅读合同文件,寻觅关键字来确定每段能否与特定合同条款类型相关。
(2)美国电信商Verizon公司采用自然言语处理(NLP)技术处理客户央求:Verizon公司业务服务保证团队运用自然言语处理(NLP)技术和深度学习来自动处理客户央求注释。该团队每月收到10万个以上的入站央求。其人工智能支持服务可以读取维修票证,并自动呼应最常见的央求,例如报告当前票证形状或维修进度更新。而更为复杂的成绩将交给工程师处理。
(3)美国公共电力和自然气公司((PSE&G)经过虚拟助理协助客户:新泽西州州公用事业公司运用虚拟助理技术和其他数字服务,以使其客户可以经过语音命令来管理其电费或自然气账户,这是运用亚马逊公司提供的Alexa 技能工具包构建的。
自然言语处理(NLP)的软件
无论组织是要构建聊天机器人、语音助理、预测文本运用程序,还是以自然言语处理(NLP)为核心的其他运用程序,都将需求工具来协助做到这一点。以下是一些遭到开发人员欢迎的软件工,其中包括:
自然言语工具包(NLTK)。自然言语工具包(NLTK)是一个开放源代码框架,用于构建Python程序以运用人类言语数据。它是在宾夕法尼亚大学计算机和信息迷信系开发的,提供了与50多种语料库和词汇资源库、一个文本处理库、一个用于自然言语处理库的包装器以及论坛的接口。自然言语工具包(NLTK)是在Apache2.0答应证下提供的。
SpaCy。SpaCy是一个用于高级自然言语处理的开放源代码库,是专门为消费目的而非研讨目的而设计的。SpaCy的设计充分思索了高级数据迷信,并允许停止深度数据发掘。SpaCy是由麻省理工学院开发并答应的。
Gensim。Gensim是一个开源Python库。独立于平台的库支持可扩展的统计语义,对纯文本文档停止语义结构分析以及检索语义相似文档的功能。它旨在在无需人工监督的状况下处理大量文本。
Amazon Comprehend。这个Amazon服务不需求机器学习的阅历。它旨在协助组织从电子邮件、客户回复、社交媒体、其他文本中找到见解。它运用情感分析、词性提取和标记化来分析单词背后的意图。
IBM Watson音频分析器。这个基于云计算的处理方案旨在用于社交监听、聊天机器人集成和客户服务监控。它可以分析客户帖子中的心情和语气,并监控客户服务电话和聊天对话。
谷歌云翻译。这个API运用自然言语处理(NLP)来检查源文本以确定言语,然后运用神经机器翻译将文本动态翻译为另一种言语。该API允许用户将功能集成到他们本人的程序中。
自然言语处理(NLP)的课程
有许多资源可用于学习创建和维护自然言语处理(NLP)运用程序,其中许多是收费的。其中包括:
DataCamp中的Python自然言语处理简介。这门收费课程提供15个视频和51个练习文件,涵盖了运用Python停止自然言语处理(NLP)的基础知识,其中包括如何辨认和分隔单词,如何在文本中提取主题以及如何构建本人的虚伪旧事分类器。
Udemy的自然言语处理(NLP)简介。这一入门课程提供运用Python和Natural Language Toolkit处理和分析文本的阅历。它包括三个小时的点播视频、三篇文章以及16个可下载资源。该课程费用为19.99美元,并提供结业证书。
运用Udemy的Python停止自然言语处理(NLP)。这一课程面向具有任何言语基础编程阅历,对面向对象编程概念的了解,具有基础到中级数学知识以及矩阵运算知识的个人。它完全基于项目,并且触及构建文本分类器以实时预测推文的心情,以及构建文章摘要器,该文章摘要器可以获取文章并提取摘要。该课程包括10.5小时的点播视频和8篇文章。该课程费用为19.99美元,并提供结业证书。
edX的自然言语处理(NLP)。这门由微软公司经过edX提供的为期六周的课程,概述了自然言语处理和经典机器学习方法的运用。它涵盖了统计机器翻译和深度语义相似性模型(DSSM)及其运用。它还涵盖了在自然言语处理(NLP)和视觉言语多形式智能中运用的深度强化学习技术。这是一门高级课程,完成该课程的人员只需支付99美元就可以获得认证证书。
Coursera提供的自然言语处理。该课程是Coursera公司的高级机器学习专业化的一部分,涵盖自然言语处理义务,其中包括情感分析、摘要、对话形状跟踪等。Coursera公司表示,这是一门高级课程,估计需求五个星期的学习工夫,每周需求学习四到五个小时才能完成。
Coursera在TensorFlow中停止自然言语处理。该课程是Coursera公司的实际专业化TensorFlow的一部分,它涵盖了运用TensorFlow构建自然言语处理系统,该系统可以处理文本和输入语句到神经网络中。Coursera公司表示,这是一门中级课程,估计需求四个星期的学习工夫,每周需求四到五个小时才能完成。
原文标题:What is NLP? Natural language processing explained,作者:Terena Bell,Thor Olavsrud
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】
作者:
@Xizi_sMgMuZjS
时间:
2021-5-21 11:38
我有个小建议,楼主把内容写详细点吧才会吸引更多读者呀。
作者:
莱克星顿的枪声
时间:
2021-5-22 12:58
我擦!我要沙发!
作者:
海角蝶恋花
时间:
2021-5-23 11:45
赞一个,赞一个
欢迎光临 智客公社 (http://bbs.cnaiplus.com/)
Powered by Discuz! X3.4