每天五分钟自然言语处理NLP：独热编码(one-hot)的运用

段玉容 · 2020-7-14 05:57:13

类别特征

在后面的课程中，我们引见了两种编码类别特征的方式，本文我们将引见独热编码。

独热编码通常处理类别间不具有大小关系的特征。比如性别和血型，我们这里拿血型来举例，由于独热编码只要四个类别，所以这里可以运用一个四维的向量，其中A表示为(1,0,0,0),B表示为(0,1,0,0),AB表示为(0,0,1,0),O表示为(0,0,0,1),这样我们就经过独热编码来停止表示了。

独热编码的成绩

独热编码存在一些成绩，我们可以看到这个特征有四个类别就需求运用四维向量来停止表示。但是只要一个维度为1，也就是说这个向量是稀疏的，假如有一个特征的特征值有10000个取值，那么这个向量也是只要一个维度为1，那么就会严重性的稀疏。

同时高维度的特征往往会形成模型参数的爆炸，由于参数的数量会随着维度的增高而添加，容易惹起过拟合的成绩。

在自然言语了解范畴，one-hot编码的维度往往和字典相关，当字典特别大时（N个），每个单词可以用一个N维的独热编码表示，同时独热编码不能区分单词之间的相似度，而且无法表示地位关系。
{!-- PGC_COLUMN --}
补充

构建字典的时分，字典不用包含全部的单词，我们可以将次要的一些单词包含起来，然后将剩余的单词用UNK表示就可以了。

哑编码和独热编码的区别次要就是哑编码恣意去除了一个形状位，比如我们可以经过（1，0，0）来表示A，(0,1,0)来表示B，（0，0，1）来表示AB，然后经过(0,0,0)来表示O,也就是经过3个形状位就可以了。

独热编码优缺陷分析

优点：一是处理了分类器不好处理团圆数据的成绩，二是在一定程度上也起到了扩大特征的作用。

·缺陷：在文本特征表示上有些缺陷就非常突出了。首先，它是一个词袋模型，不思索词与词之间的顺序。其次，它假设词与词互相独立。最后，它得到的特征是团圆稀疏的，无法计算两个不同词之间的相似度。

盼盼小妹 · 2020-7-14 11:56:05

未完待续哈哈！

魔法值不足 · 2020-7-15 10:28:25

支持，赞一个

3559735 · 2020-7-16 14:37:19

顶起顶起顶起

		自动登录	找回密码
密码			立即注册

每天五分钟自然言语处理NLP：独热编码(one-hot)的运用

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们