智客公社

标题: 每天五分钟自然言语处理NLP:独热编码(one-hot)的运用 [打印本页]

作者: 段玉容    时间: 2020-7-14 05:57
标题: 每天五分钟自然言语处理NLP:独热编码(one-hot)的运用
类别特征




[attach]420046[/attach]






在后面的课程中,我们引见了两种编码类别特征的方式,本文我们将引见独热编码。

独热编码通常处理类别间不具有大小关系的特征。比如性别和血型,我们这里拿血型来举例,由于独热编码只要四个类别,所以这里可以运用一个四维的向量,其中A表示为(1,0,0,0),B表示为(0,1,0,0),AB表示为(0,0,1,0),O表示为(0,0,0,1),这样我们就经过独热编码来停止表示了。

独热编码的成绩

独热编码存在一些成绩,我们可以看到这个特征有四个类别就需求运用四维向量来停止表示。但是只要一个维度为1,也就是说这个向量是稀疏的,假如有一个特征的特征值有10000个取值,那么这个向量也是只要一个维度为1,那么就会严重性的稀疏。

同时高维度的特征往往会形成模型参数的爆炸,由于参数的数量会随着维度的增高而添加,容易惹起过拟合的成绩。

在自然言语了解范畴,one-hot编码的维度往往和字典相关,当字典特别大时(N个),每个单词可以用一个N维的独热编码表示,同时独热编码不能区分单词之间的相似度,而且无法表示地位关系。
{!-- PGC_COLUMN --}
补充

构建字典的时分,字典不用包含全部的单词,我们可以将次要的一些单词包含起来,然后将剩余的单词用UNK表示就可以了。

哑编码和独热编码的区别次要就是哑编码恣意去除了一个形状位,比如我们可以经过(1,0,0)来表示A,(0,1,0)来表示B,(0,0,1)来表示AB,然后经过(0,0,0)来表示O,也就是经过3个形状位就可以了。

独热编码优缺陷分析

优点:一是处理了分类器不好处理团圆数据的成绩,二是在一定程度上也起到了扩大特征的作用。

·缺陷:在文本特征表示上有些缺陷就非常突出了。首先,它是一个词袋模型,不思索词与词之间的顺序。其次,它假设词与词互相独立。最后,它得到的特征是团圆稀疏的,无法计算两个不同词之间的相似度。
作者: 盼盼小妹    时间: 2020-7-14 11:56
未完待续哈哈!
作者: 魔法值不足    时间: 2020-7-15 10:28
支持,赞一个
作者: 3559735    时间: 2020-7-16 14:37
顶起顶起顶起




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4