门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
自然语言
›
每天五分钟自然言语处理NLP:什么是词袋模型? ...
返回列表
每天五分钟自然言语处理NLP:什么是词袋模型?
[复制链接]
难有一曲钟萦耳
2020-7-8 20:38:52
显示全部楼层
|
阅读模式
我们可以运用词袋模型来表示文章,词袋模型忽略了文章中词汇的顺序信息,我们可以了解为,我们运用了一个口袋把文章中一切词汇放入到这个口袋中,这样一切的词汇就都打乱了顺序,我们只需求对文章中的每一个词汇计数。
举例,我们如今有一个这样的文章:
一篇文章
{!-- PGC_COLUMN --}
我们如今运用词袋模型来表示下面这篇文章,词袋模型会用
一个向量
来表示这个文章的信息,这个向量定义在我们词汇表中(词汇表中不是什么词汇都有,只要我们以为有用的词汇),这个词汇表中有的地位是the,有的地位是sport,这些地位都是固定的。我们只需把我们的文档中的词汇放在固定的地位上,并且统计出每个词汇出现的次数就可以了。
如上所示每个地位我们都统计出了词出现的次数,然后这篇文章就可以经过这个向量停止表示,这个就是词袋模型。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
楼主
|
难有一曲钟萦耳
2020-7-9 07:03:30
显示全部楼层
沙发位出租,有意请联系电话:13888888888
回复
使用道具
举报
lawjean
2020-7-9 15:56:56
显示全部楼层
我只是路过,不发表意见
回复
使用道具
举报
讽刺大人
2020-7-11 09:35:45
显示全部楼层
前排支持下
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
难有一曲钟萦耳
金牌会员
0
关注
0
粉丝
102
帖子
Ta的主页
发布
加好友
最近发表
国产化率首超50%,工业机器人进出口形势逆转
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们