智客公社
标题:
每天五分钟自然言语处理NLP:什么是词袋模型?
[打印本页]
作者:
难有一曲钟萦耳
时间:
2020-7-8 20:38
标题:
每天五分钟自然言语处理NLP:什么是词袋模型?
我们可以运用词袋模型来表示文章,词袋模型忽略了文章中词汇的顺序信息,我们可以了解为,我们运用了一个口袋把文章中一切词汇放入到这个口袋中,这样一切的词汇就都打乱了顺序,我们只需求对文章中的每一个词汇计数。
举例,我们如今有一个这样的文章:
[attach]417180[/attach]
一篇文章
{!-- PGC_COLUMN --}
我们如今运用词袋模型来表示下面这篇文章,词袋模型会用
一个向量
来表示这个文章的信息,这个向量定义在我们词汇表中(词汇表中不是什么词汇都有,只要我们以为有用的词汇),这个词汇表中有的地位是the,有的地位是sport,这些地位都是固定的。我们只需把我们的文档中的词汇放在固定的地位上,并且统计出每个词汇出现的次数就可以了。
[attach]417181[/attach]
如上所示每个地位我们都统计出了词出现的次数,然后这篇文章就可以经过这个向量停止表示,这个就是词袋模型。
作者:
难有一曲钟萦耳
时间:
2020-7-9 07:03
沙发位出租,有意请联系电话:13888888888
作者:
lawjean
时间:
2020-7-9 15:56
我只是路过,不发表意见
作者:
讽刺大人
时间:
2020-7-11 09:35
前排支持下
欢迎光临 智客公社 (http://bbs.cnaiplus.com/)
Powered by Discuz! X3.4