找回密码
 立即注册
搜索

每天五分钟自然言语处理NLP:什么是词袋模型?

我们可以运用词袋模型来表示文章,词袋模型忽略了文章中词汇的顺序信息,我们可以了解为,我们运用了一个口袋把文章中一切词汇放入到这个口袋中,这样一切的词汇就都打乱了顺序,我们只需求对文章中的每一个词汇计数。

举例,我们如今有一个这样的文章:


一篇文章





{!-- PGC_COLUMN --}
我们如今运用词袋模型来表示下面这篇文章,词袋模型会用一个向量来表示这个文章的信息,这个向量定义在我们词汇表中(词汇表中不是什么词汇都有,只要我们以为有用的词汇),这个词汇表中有的地位是the,有的地位是sport,这些地位都是固定的。我们只需把我们的文档中的词汇放在固定的地位上,并且统计出每个词汇出现的次数就可以了。




如上所示每个地位我们都统计出了词出现的次数,然后这篇文章就可以经过这个向量停止表示,这个就是词袋模型。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

 楼主| 难有一曲钟萦耳 2020-7-9 07:03:30 显示全部楼层
沙发位出租,有意请联系电话:13888888888
回复

使用道具 举报

lawjean 2020-7-9 15:56:56 显示全部楼层
我只是路过,不发表意见
回复

使用道具 举报

讽刺大人 2020-7-11 09:35:45 显示全部楼层
前排支持下
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies