自然言语处理背后的数据迷信

魔法值不足 · 2019-4-22 07:46:37

自然言语处理 (NLP) 是计算机迷信和人工智能范畴的一门学科。NLP 是人与机器之间的沟通, 它既能解释我们的意思, 也能构建有效的反应。

人类交流是能感知到的最诱人的特性之一。作为人类的一员，我知道人类之间如何互动是极其复杂的。我们常常发送和接收错误的信息，或者我们的信息会被别人曲解。每天我们都天经地义地以为本人有才能向同事和家人传达意义。我们用各种各样的方式交流，包括交谈和书写符号。人与人之间的交流可以像隔着房间看一眼那么简单。斯坦福大学机器学习教授克里斯•曼宁将沟通描画为“一个团圆的、符号的、分类的信号系统”。这是什么意思呢?我以为是我们的感官，如视觉、触觉、听觉，甚至是嗅觉，使我们可以交流。这让我想到了这篇博客的主题:当我们把计算归入思索范围时会发生什么?什么是自然言语处理?它是如何工作的?

自然言语处理 (NLP) 是计算机迷信和人工智能范畴的一门学科。NLP 是人与机器之间的沟通, 它既能解释我们的意思, 也能构建有效的反应。这个范畴曾经从上世纪50年代就存在了, 你能够听说过的艾伦图灵开发的"图灵测试" 。图灵测试衡量计算机对人类书面成绩的反馈。假如一个独立的人不能分辨一个人和一台机器的区别, 那么计算系统就会被评为智能。从上世纪50年代以来, 我们获得了长足的提高, 数据迷信和言语学范畴也获得了很大停顿。本文的其他部分详细引见了这些算法在自然言语处理范畴的一些基本功能，同时将包含一些运用 Python 的代码示例。

标记化

为了末尾自然言语处理, 我们将从一些非常简单的文本解析末尾。标记化是提取文本流的一个过程, 如一个句子, 并将其分解为其最基本的单词。例如, 取以下句子:“he red fox jumps over the moon .”每个单词都代表一个标记, 其中共有七个。

运用Python标记句子：

myText = ‘The red fox jumps over the moon.’

myLowerText = myText.lower()

myTextList = myLowerText.split()

print(myTextList)

OUTPUT:

[‘the’, ‘red’, ‘fox’, ‘jumps’, ‘over’, ‘the’, ‘moon’]

词性归类

词性归类用于确定句法功能。在英语中, 词性的次要部分是: 描画词、代词、名词、动词、副词、前置词、连词和感叹词。这是用来推断基于它的单词的意图。例如, PERMIT 一词可以是一个名词和一个动词。动词用法：“I permit you to go to the dance.” 名词用法：“Did you get the permit from the county.”

运用Python分析部分语音：(运用 NLTK 库)

您能够需求安装 NLTK, 它是用于自然言语处理的 Python 库。关于 NLTK 的阐明: https://www.geeksforgeeks.org/part-speech-tagging-stop-words-using-nltk-python/

import nltk

myText = nltk.word_tokenize(‘the red fox jumps over the moon.’)

print(‘Parts of Speech: ‘, nltk.pos_tag(myText))

OUTPUT:

Parts of Speech: [(‘the’, ‘DT’), (‘red’, ‘JJ’), (‘fox’, ‘NN’), (‘jumps’, ‘NNS’), (‘over’, ‘IN’), (‘the’, ‘DT’), (‘moon’, ‘NN’), (‘.’, ‘.’)]

因此, 您可以看到 NLTK 如何将句子分解为各个标记并解释语音的某些部分, 例如 ("fox"、"NN"):

NN 名词, 单数 "fox"

中止词删除

许多句子和段落中包含的单词几乎没有意义或价值。这些词包括 "a"、"and"、"an"和"the"。移除中止词是一个从句子或单词流中删除这些单词的过程。

运用 Python 和 NLTK 停止中止词删除: (点击原文阅读有关 NLTK 的阐明)

from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize

example_sent = “a red fox is an animal that is able to jump over the moon.” stop_words = set(stopwords.words(‘english’)) word_tokens = word_tokenize(example_sent) filtered_sentence = [w for w in word_tokens if not w in stop_words] filtered_sentence = [] for w in word_tokens: if w not in stop_words: filtered_sentence.append(w) print(filtered_sentence)

OUTPUT:

[‘red’, ‘fox’, ‘animal’, ‘able’, ‘jump’, ‘moon’, ‘.’]

词干提取

词干提取是减少单词噪声的过程，也称为词典归一化。它减少了词形变化。例如, "钓鱼" 一词有一个词干 "鱼"。词干提取是用来把一个词简化为它的基本含义。另一个很好的例子是 "喜欢" 这个词, 它是许多词的词干, 比如: "likes"、"liked"、"likely"。搜索引擎运用词干分析就是这个缘由。在许多状况下, 搜索其中一个词前往在集合中包含另一个单词的文档能够会很有用。

要运用 Python 和 NLTK 库执行词干提取, 请执行以下操作:

from nltk.stem import PorterStemmer

from nltk.tokenize import word_tokenize

ps = PorterStemmer()

for w in words:

print(w, ” : “, ps.stem(w))

OUTPUT:

(‘likes’, ‘ : ‘, u’like’)

(‘likely’, ‘ : ‘, u’like’)

(‘likes’, ‘ : ‘, u’like’)

(‘liking’, ‘ : ‘, u’like’)

words = [“likes”, “likely”, “likes”, “liking”]

词形还原

词干提取和词形还原是非常相似的, 由于它们能让你找到词根。这称为单词规范化, 两者都可以生成相反的输入结果。但是, 它们的工作方式却大不相反。词干提取试图将单词切分而词形还原给你提供观察单词是名词、动词还是其他词性。让我们以单词 "saw"为例。词干提取会前往 "saw", 词形还原可以前往"see" 或 "saw"。词形还原通常会前往一个可读的词, 而词干提取能够不会。有关差异的示例, 请参见下文。雷锋网雷锋网雷锋网(公众号：雷锋网)

让我们看一个 Python 示例, 它将词干提取与词形还原停止了比较:

from nltk.stem import PorterStemmer

# from nltk.tokenize import word_tokenizefrom nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

ps = PorterStemmer()

words = [“corpora”, “constructing”, “better”, “done”, “worst”, “pony”]

for w in words:

print(w, ” STEMMING : “, ps.stem(w), ” LEMMATIZATION “, lemmatizer.lemmatize(w, pos=‘v’))

OUTPUT:

corpora STEMMING : corpora LEMMATIZATION corpora

constructing STEMMING : construct LEMMATIZATION constructing

better STEMMING : better LEMMATIZATION good

done STEMMING : done LEMMATIZATION done

worst STEMMING : worst LEMMATIZATION bad

pony STEMMING : poni LEMMATIZATION pony

总结

言语学是对言语、形状学、句法、语音和语义学的研讨。包括数据迷信和计算在内的这一范畴在过去60年里曾经停止了爆炸式的发展。我们刚刚在 NLP 中探求了一些非常简单的文本分析功能。Google、Bing 和其他搜索引擎应用这项技术协助您在万维网上查找信息。想想看, 让 Alexa 播放你最喜欢的歌曲或者 Siri 是如何协助你指路。这都是由于 NLP。计算中的自然言语不是噱头或玩具。NLP是我们生活中无缝计算的将来。

Arcadia Data刚刚发布了5.0 版, 其中包括我们称之为 Search Based BI的自然言语查询功能。它运用了之前描画的一些数据迷信和文本分析。查看我们关于Search Based BI工具的视频可了解更多信息: SEARCH-BASED BI

原标题：The Data Science Behind Natural Language Processing；作者： John Thuma；原文：https://medium.com/dataseries/the-data-science-behind-natural-language-processing-69d6df06a1ff

醉生死Joker · 2019-4-22 13:05:58

我反手就是一个么么哒，不谢

Ice一Soul · 2019-4-22 20:10:12

LZ是天才，坚定完毕

		自动登录	找回密码
密码			立即注册

自然言语处理背后的数据迷信

本帖子中包含更多资源

大神点评2

最近发表

公社版块

关注我们