找回密码
 立即注册
搜索

每天五分钟自然言语处理NLP:独热编码(one-hot)的运用

类别特征










在后面的课程中,我们引见了两种编码类别特征的方式,本文我们将引见独热编码。

独热编码通常处理类别间不具有大小关系的特征。比如性别和血型,我们这里拿血型来举例,由于独热编码只要四个类别,所以这里可以运用一个四维的向量,其中A表示为(1,0,0,0),B表示为(0,1,0,0),AB表示为(0,0,1,0),O表示为(0,0,0,1),这样我们就经过独热编码来停止表示了。

独热编码的成绩

独热编码存在一些成绩,我们可以看到这个特征有四个类别就需求运用四维向量来停止表示。但是只要一个维度为1,也就是说这个向量是稀疏的,假如有一个特征的特征值有10000个取值,那么这个向量也是只要一个维度为1,那么就会严重性的稀疏。

同时高维度的特征往往会形成模型参数的爆炸,由于参数的数量会随着维度的增高而添加,容易惹起过拟合的成绩。

在自然言语了解范畴,one-hot编码的维度往往和字典相关,当字典特别大时(N个),每个单词可以用一个N维的独热编码表示,同时独热编码不能区分单词之间的相似度,而且无法表示地位关系。
{!-- PGC_COLUMN --}
补充

构建字典的时分,字典不用包含全部的单词,我们可以将次要的一些单词包含起来,然后将剩余的单词用UNK表示就可以了。

哑编码和独热编码的区别次要就是哑编码恣意去除了一个形状位,比如我们可以经过(1,0,0)来表示A,(0,1,0)来表示B,(0,0,1)来表示AB,然后经过(0,0,0)来表示O,也就是经过3个形状位就可以了。

独热编码优缺陷分析

优点:一是处理了分类器不好处理团圆数据的成绩,二是在一定程度上也起到了扩大特征的作用。

·缺陷:在文本特征表示上有些缺陷就非常突出了。首先,它是一个词袋模型,不思索词与词之间的顺序。其次,它假设词与词互相独立。最后,它得到的特征是团圆稀疏的,无法计算两个不同词之间的相似度。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

盼盼小妹 2020-7-14 11:56:05 来自手机 显示全部楼层
未完待续哈哈!
回复

使用道具 举报

魔法值不足 2020-7-15 10:28:25 来自手机 显示全部楼层
支持,赞一个
回复

使用道具 举报

3559735 2020-7-16 14:37:19 来自手机 显示全部楼层
顶起顶起顶起
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies