重要说明 TF-IDF表示词项频率(term frequency)乘以逆文档频率(inverse document frequency)。在上一章中我们曾经学到过,词项频率是指每个词在某篇文档中的出现次数。而逆文档频率指的是文档集合中的文档总数除以某个词出现的文档总数。
提示 术语topic、semantic和meaning具有相似的含义,在讨论NLP时往往可以互换使用。在本章中,我们将学习如何构建一个NLP流水线,它可以自己找出这类同义词。该流水线甚至可以找到短语“figure it out”和词“compute”在意义上的相似性。当然,机器只能“计算”意义,而不能“理解”意义。
提示 Manning出版社还出版了另外两本关于深度学习的重要著作:
提示 一般而言,把单个特征表示为xi,其中i是整数。所有特征的集合表示为X,表示一个向量:
提示 输入向量(X)与权重向量(W)两两相乘后的加和就是这两个向量的点积。这是线性代数在神经网络中最基础的应用,对神经网络的发展影响巨大。另外,通过现代计算机GPU对线性代数操作的性能优化来完成感知机的矩阵乘法运算,使得实现的神经网络变得极为高效。
提示 所有神经网络的基本单位都是神经元,基本感知机是广义神经元的一个特例,从现在开始,我们将感知机称为一个神经元。
欢迎光临 智客公社 (http://bbs.cnaiplus.com/) | Powered by Discuz! X3.4 |