词向量初始化技术的基本思绪就是要在词向量中储存尽能够多的信息,同时也要将维度控制在一个可以管理的范围之内(25 – 1000维是理想的)。Word2Vec让我们可以预测每一个单词周围的单词。还是以我们之前提到的句子「I love NLP and I like dogs.」为例。我们首先来看一看这句话的前三个单词,因此我们就要把我们的窗口大小m设置为3.
下一步就是提出特征表征I(x),并允许我们的记忆 m 停止更新,从而反映出我们曾经接收到的新输入 x。
[attach]407743[/attach]
你可以将记忆 m 视为由单个的记忆 mi 构成的一个序列。这些单个记忆 mi 的每一个都能成为整个记忆 m 的一个函数,特征表征 I(x),和\或其本身。函数 G 能简单到在单个记忆单元 mi 中仅存储整个表征 I(x)。你能基于新输入修正函数 G ,更新过去的记忆。第三、四部包括根据成绩读取记忆,获得一个特征表征 o, 然后将其解码输入一个最终答案。
下一篇论文分析了情感分析范畴获得的停顿,情感分析就是断定某个短语的语气/意义是积极的还是消极的。更正式一点的说法,情感可以被定义为对某一状况或工夫的观点或态度。这时,LSTMs就是情感分析网络中最常用到的部件。这篇由Kai Sheng Tai, Richard Socher, and Christopher Manning 合作的论文引见了一种将LSTMs 链入非线性结构的风趣方法。
这种非线性安排背后的想法在于:自然言语具有这样的特质,亦即单词按某种顺序陈列后就变成短语。这些根据单词顺序构成的短语所表达的意思和构成短语的单词的意思是不同的。为了能表征出这一特点,一个LSTM的网络单元就必须被安排进一个树结构,其中 ,不同的单元会受它们的子节点( children nodes)影响。
网络架构
Tree LSTM 和 标准 LSTM 的一个不同之处在于,后者隐藏形状是一个关于当前输入和之前工夫步骤上的隐藏形状的函数。不过,有了这个结构,它的隐藏形状就是关于当前输入及其子单元隐藏形状的函数。