智客公社

标题: 每天五分钟自然言语处理NLP:什么是词袋模型? [打印本页]

作者: 难有一曲钟萦耳    时间: 2020-7-8 20:38
标题: 每天五分钟自然言语处理NLP:什么是词袋模型?
我们可以运用词袋模型来表示文章,词袋模型忽略了文章中词汇的顺序信息,我们可以了解为,我们运用了一个口袋把文章中一切词汇放入到这个口袋中,这样一切的词汇就都打乱了顺序,我们只需求对文章中的每一个词汇计数。

举例,我们如今有一个这样的文章:

[attach]417180[/attach]

一篇文章





{!-- PGC_COLUMN --}
我们如今运用词袋模型来表示下面这篇文章,词袋模型会用一个向量来表示这个文章的信息,这个向量定义在我们词汇表中(词汇表中不是什么词汇都有,只要我们以为有用的词汇),这个词汇表中有的地位是the,有的地位是sport,这些地位都是固定的。我们只需把我们的文档中的词汇放在固定的地位上,并且统计出每个词汇出现的次数就可以了。

[attach]417181[/attach]



如上所示每个地位我们都统计出了词出现的次数,然后这篇文章就可以经过这个向量停止表示,这个就是词袋模型。
作者: 难有一曲钟萦耳    时间: 2020-7-9 07:03
沙发位出租,有意请联系电话:13888888888
作者: lawjean    时间: 2020-7-9 15:56
我只是路过,不发表意见
作者: 讽刺大人    时间: 2020-7-11 09:35
前排支持下




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4