Python开发人员入门自然言语处理必备的参考指南

ojgkcsv53231 · 2020-9-24 21:31:54

随着NLP技术的发展，信息流和计算才能也不断加强。我们如今只需在搜索栏中输入几个字符，就可以检索出完成义务所需的准确信息。搜索提供的前几个自动补全选项通常非常合适，以致于让我们感觉是有一个人在协助我们停止搜索。

到底是什么推进了NLP的发展？

实践上以上这些都是，其实还有更多。大家可以在任何一个搜索引擎中输入这样一个成绩“为什么如今自然言语处理如此重要？”，然后就能找到维基百科上给出各种好理由的文章。

还有一些更深层次的缘由，其中一个缘由是对通用人工智能（AGI）或深层人工智能（Deep AI）的加速追求。人类的智慧能够只是体如今我们可以把思想整理成团圆的概念，停止存储（记忆）和有效地分享。这使我们可以跨越工夫和空间来扩展我们的智力，将我们的大脑衔接起来构成集体智能。

Steven Pinker在《思想本质》（The Stuff of Thought）中提出的一个观点是：我们实践上是用自然言语思索的。称其为“内心对话”不是没有缘由的。Facebook、Google和Elon Musk正押注于这样一个理想：文字将成为思想的默许通讯协议。他们都投资了一些项目，试图把思想、脑电波和电信号转换成文字。此外，沃尔夫假说以为言语会影响我们的思想方式。自然言语无疑是文明和集体看法的传播媒介。

因此，假如我们想要在机器上模拟或模拟人类的思想，那么自然言语处理能够是至关重要的。此外，大家将在《自然言语处理实战》中学习词的数据结构及嵌套关系中能够隐藏着的有关智能的重要线索。大家将运用这些结构，而神经网络使无生命的系统可以以看起来像人类的方式消化、存储、检索和生成自然言语。

还有一个更重要的缘由，为什么大家想要学习如何编写一个运用自然言语的系统？这是由于你也答应以解救世界！希望大家曾经关注了大佬们之间关于人工智能控制成绩和开发“敌对人工智能”的应战的讨论。Nick Bostrom、Calum Chace、Elon Musk和其他许多人都以为，人类的将来取决于我们开发敌对机器的才能。在可预见的将来，自然言语将成为人类和机器之间的重要联络纽带。

即便我们可以直接经过机器停止“思索”，这些想法也很能够是由我们大脑中的自然词和言语塑造的。自然言语和机器言语之间的界限将会变得模糊，就像人与机器之间的界限将会消逝一样。理想上，这条界限在1984年末尾变得模糊，那年《赛博格宣言》的发表使George Orwell的反乌托邦预言变得愈加能够并易于接受。

希望“协助解救世界”这句话没有让大家产生疑惑。随着本书的停顿，我们将向读者展现如何构建和衔接聊天机器人“大脑”。在这个过程中，读者会发现人类和机器之间的社交反馈回路上，宏大的扰动都能够会对机器和人类产生深远的影响。就像一只蝴蝶在某个地方扇动翅膀一样，对聊天机器人的“无私属性”上一个宏大的调整，能够会带来敌对聊天机器人冲突行为的混乱风暴。大家还会留意到，一些残忍无私的系统会迅速聚集一批忠实的支持者，来协助停息由那些目光短浅的机器人形成的混乱。由于亲社会行为的网络效应，亲社会的协作型聊天机器人可以对世界产生宏大影响。

这正是《自然言语处理实战》作者聚集在一同的缘由。经过运用我们与生俱来的言语在互联网上停止开放、诚实、亲社会的交流，构成了一个支持社区。我们正在应用集体智慧来协助建立和支持其他半智能的参与者（机器）。我们希望我们的话语能在大家的脑海中留下深入的印象，并像meme一样在聊天机器人的世界里广泛传播，用构建亲社会NLP系统的热情来感染其别人。我们希望，当超级智能最终出现时，这种亲社会的肉体能对它有稍微的推进作用。
自然言语处理实战应用Python了解、分析和生成文本

[size=0.833em][美] 霍布森·莱恩，科尔·霍华德，汉纳斯·马克斯·哈普克著，史亮，鲁骁，唐可欣，王斌译

内容简介

[size=0.667em]本书是引见自然言语处理（NLP）和深度学习的实战书。NLP已成为深度学习的核心运用范畴，而深度学习是NLP研讨和运用中的必要工具。本书分为3部分：第一部分引见NLP基础，包括分词、TF-IDF向量化以及从词频向量到语义向量的转换；第二部分讲述深度学习，包含神经网络、词向量、卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆（LSTM）网络、序列到序列建模和留意力机制等基本的深度学习模型和方法；第三部分引见实战方面的内容，包括信息提取、问答系统、人机对话等真实世界系统的模型构建、功能应战以及应对方法。
本书面向中高级Python开发人员，兼具基础实际与编程实战，是古代NLP范畴从业者的适用参考书。
编辑引荐

Python开发人员入门自然言语处理必备

古代自然言语处理范畴从业者的适用参考指南

小米AI实验室NLP团队献译

[size=0.667em]1.本书是构建可以阅读和解释人类言语的机器的适用指南；
2.读者可以运用现有的Python 包来捕获文本的含义并相应地做出呼应；
3.本书扩展了传统的自然言语处理方法，包括神经网络、古代深度学习算法和生成技术，用于处理真实世界的成绩，如提取日期和称号、合成文本和回答无固定格式的成绩；
4.提供源代码。
深度学习范畴的**停顿使各类运用可以极其精准地了解文本和语音。其结果是，聊天机器人可以模拟真人挑选出与职位高度婚配的简历，完成杰出的预测性搜索，自动生成文档摘要——一切这些都可以以很低的成本完成。新技术的发展连同Keras 和TensorFlow之类的易用工具的出现，使专业质量的自然言语处理（NLP）比以往任何时分都更容易完成。
本书次要内容
● Keras、TensorFlow、gensim和 scikit-learn等工具的运用。
● 基于规则的自然言语处理和基于数据的自然言语处理。
● 可扩展的自然言语处理流水线。
阅读本书，读者需求对深度学习的知识有基本的了解，并具有中等程度的Python 编程技能。
《自然言语处理实战》特征内容：

关于作者

目录

[size=0.667em]第一部分　处理文本的机器
第 1章 NLP概述 3
1．1 自然言语与编程言语 3
1．2 神奇的魔法 4
1．2．1 会交谈的机器 5
1．2．2 NLP中的数学 5
1．3 实践运用 7
1．4 计算机“眼”中的言语 8
1．4．1 锁的言语（正则表达式） 9
1．4．2 正则表达式 9
1．4．3 一个简单的聊天机器人 11
1．4．4 另一种方法 14
1．5 超空间简述 17
1．6 词序和语法 19
1．7 聊天机器人的自然言语流水线 20
1．8 深度处理 22
1．9 自然言语智商 24
1．10 小结 26
第 2章构建本人的词汇表——分词 27
2．1 应战（词干还原预览） 28
2．2 应用分词器构建词汇表 29
2．2．1 点积 37
2．2．2 度量词袋之间的重合度 37
2．2．3 标点符号的处理 38
2．2．4 将词汇表扩展到n-gram 43
2．2．5 词汇表归一化 48
2．3 情感 55
2．3．1 VADER：一个基于规则的情感分析器 56
2．3．2 朴素贝叶斯 58
2．4 小结 61
第3章词中的数学 62
3．1 词袋 63
3．2 向量化 67
3．3 齐普夫定律 74
3．4 主题建模 76
3．4．1 回到齐普夫定律 79
3．4．2 相关度排序 80
3．4．3 工具 82
3．4．4 其他工具 83
3．4．5 Okapi BM25 85
3．4．6 将来展望 85
3．5 小结 85
第4章词频背后的语义 87
4．1 从词频到主题得分 88
4．1．1 TF-IDF向量及词形归并 88
4．1．2 主题向量 89
4．1．3 思想实验 90
4．1．4 一个主题评分算法 94
4．1．5 一个LDA分类器 95
4．2 潜在语义分析 99
4．3 奇特值分解 103
4．3．1 左奇特向量U 105
4．3．2 奇特值向量S 106
4．3．3 右奇特向量VT 107
4．3．4 SVD矩阵的方向 107
4．3．5 主题约简 108
4．4 主成分分析 109
4．4．1 三维向量上的PCA 111
4．4．2 回归NLP 112
4．4．3 基于PCA的短音讯语义分析 114
4．4．4 基于截断的SVD的短音讯语义分析 116
4．4．5 基于LSA的渣滓短音讯分类的效果 117
4．5 潜在狄利克雷分布（LDiA） 119
4．5．1 LDiA思想 120
4．5．2 基于LDiA主题模型的短音讯语义分析 121
4．5．3 LDiA+LDA=渣滓音讯过滤器 124
4．5．4 更公平的对比：32个LdiA主题 125
4．6 间隔和相似度 127
4．7 反馈及改进 129
4．8 主题向量的威力 132
4．8．1 语义搜索 133
4．8．2 改进 135
4．9 小结 135
第二部分深度学习（神经网络）
第5章神经网络初步（感知机与反向传播） 139
5．1 神经网络的组成 140
5．1．1 感知机 140
5．1．2 数字感知机 141
5．1．3 看法偏置 142
5．1．4 误差曲面 153
5．1．5 不同类型的误差曲面 154
5．1．6 多种梯度下降算法 155
5．1．7 Keras：用Python完成神经网络 155
5．1．8 展望 158
5．1．9 归一化：格式化输入 159
5．2 小结 159
第6章词向量推理（Word2vec） 160
6．1 语义查询与类比 160
6．2 词向量 162
6．2．1 面向向量的推理 165
6．2．2 如何计算Word2vec表示 167
6．2．3 如何运用gensim．word2vec模块 175
6．2．4 生成定制化词向量表示 177
6．2．5 Word2vec和GloVe 179
6．2．6 fastText 180
6．2．7 Word2vec和LSA 180
6．2．8 词关系可视化 181
6．2．9 非自然词 187
6．2．10 应用Doc2vec计算文档相似度 188
6．3 小结 190
第7章卷积神经网络（CNN） 191
7．1 语义了解 192
7．2 工具包 193
7．3 卷积神经网络 194
7．3．1 构建块 195
7．3．2 步长 196
7．3．3 卷积核的组成 196
7．3．4 填充 198
7．3．5 学习 199
7．4 狭窄的窗口 199
7．4．1 Keras完成：预备数据 201
7．4．2 卷积神经网络架构 206
7．4．3 池化 206
7．4．4 dropout 208
7．4．5 输入层 209
7．4．6 末尾学习（训练） 211
7．4．7 在流水线中运用模型 212
7．4．8 前景展望 213
7．5 小结 214
第8章循环神经网络（RNN） 215
8．1 循环网络的记忆功能 217
8．1．1 随工夫反向传播算法 221
8．1．2 不同时辰的权重更新 223
8．1．3 简要回顾 225
8．1．4 难点 225
8．1．5 应用Keras完成循环神经网络 226
8．2 整合各个部分 230
8．3 自我学习 231
8．4 超参数 232
8．5 预测 235
8．5．1 有形状性 236
8．5．2 双向RNN 236
8．5．3 编码向量 238
8．6 小结 238
第9章改进记忆力：长短期记忆网络（LSTM） 239
9．1 长短期记忆（LSTM） 240
9．1．1 随工夫反向传播 247
9．1．2 模型的运用 250
9．1．3 脏数据 251
9．1．4 “未知”词条的处理 254
9．1．5 字符级建模 255
9．1．6 生成聊地理字 260
9．1．7 进一步生成文本 262
9．1．8 文本生成的成绩：内容不受控 269
9．1．9 其他记忆机制 269
9．1．10 更深的网络 270
9．2 小结 271
第 10章序列到序列建模和留意力机制 272
10．1 编码-解码架构 272
10．1．1 解码思想 273
10．1．2 素昧平生？ 275
10．1．3 序列到序列对话 276
10．1．4 回顾LSTM 277
10．2 组装一个序列到序列的流水线 278
10．2．1 为序列到序列训练预备数据集 278
10．2．2 Keras中的序列到序列模型 279
10．2．3 序列编码器 280
10．2．4 思想解码器 281
10．2．5 组装一个序列到序列网络 282
10．3 训练序列到序列网络 282
10．4 运用序列到序列网络构建一个聊天机器人 284
10．4．1 为训练预备语料库 285
10．4．2 建立字符字典 286
10．4．3 生成独热编码训练集 286
10．4．4 训练序列到序列聊天机器人 287
10．4．5 组装序列生成模型 288
10．4．6 预测输入序列 288
10．4．7 生成回复 289
10．4．8 与聊天机器人交谈 290
10．5 加强 290
10．5．1 运用装桶法降低训练复杂度 290
10．5．2 留意力机制 291
10．6 实践运用 292
10．7 小结 294
第三部分进入理想世界（理想中的NLP应战）
第 11章信息提取（命名实体辨认与问答系统） 297
11．1 命名实体与关系 297
11．1．1 知识库 298
11．1．2 信息提取 300
11．2 正则形式 300
11．2．1 正则表达式 301
11．2．2 把信息提取当作机器学习里的特征提取义务 302
11．3 值得提取的信息 303
11．3．1 提取GPS地位 303
11．3．2 提取日期 304
11．4 提取人物关系（事物关系） 309
11．4．1 词性标注 309
11．4．2 实体称号标准化 313
11．4．3 实体关系标准化和提取 314
11．4．4 单词形式 314
11．4．5 文本分割 314
11．4．6 为什么split('．! ')函数不管用 316
11．4．7 运用正则表达式停止断句 316
11．5 理想世界的信息提取 318
11．6 小结 319
第 12章末尾聊天（对话引擎） 320
12．1 言语技能 321
12．1．1 古代方法 322
12．1．2 混合方法 326
12．2 形式婚配方法 327
12．2．1 基于AIML的形式婚配聊天机器人 328
12．2．2 形式婚配的网络视图 334
12．3 知识方法 334
12．4 检索（搜索）方法 336
12．4．1 上下文应战 336
12．4．2 基于示例检索的聊天机器人 338
12．4．3 基于搜索的聊天机器人 341
12．5 生成式方法 343
12．5．1 聊聊NLPIA 343
12．5．2 每种方法的利害 345
12．6 四轮驱动 345
12．7 设计过程 347
12．8 技巧 349
12．8．1 用带有可预测答案的成绩发问 349
12．8．2 要风趣 350
12．8．3 当其他一切方法都失败时，搜索 350
12．8．4 变得受欢迎 350
12．8．5 成为衔接器 351
12．8．6 变得无情感 351
12．9 理想世界 351
12．10 小结 352
第 13章可扩展性（优化、并行化和批处理） 353
13．1 太多（数据）未必是好事 353
13．2 优化NLP算法 354
13．2．1 索引 354
13．2．2 高级索引 355
13．2．3 基于Annoy的高级索引 357
13．2．4 终究为什么要运用近似索引 361
13．2．5 索引变通方法：团圆化 362
13．3 常数级内存算法 363
13．3．1 gensim 363
13．3．2 图计算 363
13．4 并行化NLP计算 364
13．4．1 在GPU上训练NLP模型 364
13．4．2 租与买 365
13．4．3 GPU租赁选择 366
13．4．4 张量处理单元TPU 367
13．5 减少模型训练时期的内存占用 367
13．6 运用TensorBoard了解模型 369
13．7 小结 372
附录A 本书配套的NLP工具 373
附录B 风趣的Python和正则表达式 380
附录C 向量和矩阵（线性代数基础） 385
附录D 机器学习常见工具与技术 391
附录E 设置亚马逊云服务（AWS）上的GPU 403
附录F 部分敏感哈希 415
资源 421
词汇表 428

小胖妞阳晨 · 2020-9-24 21:33:52

分享了

隔壁老王的 · 2020-9-25 19:13:48

鄙视楼下的顶帖没我快，哈哈

小勰卿箐 · 2020-9-26 20:28:52

有没有什么需要注意的？

宇智波八夜 · 2020-9-27 15:36:01

高手云集果断围观

		自动登录	找回密码
密码			立即注册

Python开发人员入门自然言语处理必备的参考指南

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们