门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
大数据运营的详细工作,数据的分析与发掘 ...
返回列表
大数据运营的详细工作,数据的分析与发掘
[复制链接]
专食好嘢
2020-9-4 08:46:22
显示全部楼层
|
阅读模式
数据分析和数据抽取揭示了数据库中的知识,因此我们将数据分析和知识发现称为数据库。严厉来说从某种意义上说,数据发掘是对数据库中知识的真正发现。其简称为KDD。
数据分析
是从数据库中经过统计、计算、抽样等相关的方法,获取基于数据库的数据表象的知识,也就是指数据分析是从数据库外面得到一些表象性的信息。
数据发掘
是从数据库中,经过机器学习或者是经过数学算法等相关的方法获取深层次的知识(比如属性之间的规律性,或者是预测)的技术。
数据发掘的特点:
1.数据集大:
只要数据集越大,得到的规律才能越贴近于正确的实践的规律,结果也才越准确。
2.不残缺性:
数据发掘运用的数据,往往都是不残缺的。
3.不准确性:
又叫做噪声数据,在商业中用户能够会提供假数据,是干扰数据,对发掘工作有负面作用。
4.模糊的:
模糊的可以和不准确性相关联。由于数据不准确,所以我们只能在大体上对数据停止一个全体的观察。
5.随机性:
随机性有两个解释,一个是获取的数据随机,我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器停止判别和学习,那么一切的操作都属于是灰箱操作。
数据发掘的基本步骤:
数据输入:
输入要发掘的数据
数据转换:
做数据预处理的步骤,经过了数据转换之后,数据就是一个可用的,简约的、残缺的、一致的、准确的数据集。
(1)数据清算:对噪声数据和不分歧的数据做肃清操作。或者是对反复数据做删除,或者是对缺失数据做填充(众数、中位数、本人判别)。
(2)数据集成:将多个数据源的数据做整合。
(3)数据选择:选择需求的数据做发掘。比如一个人买不买电脑和他叫什么没什么关系,所以就不需求输入到机器中停止分析。
(4)数据变换:不同的数据被经过数据集成集成到一同的时分,就会出现一个成绩,叫做实体辨认成绩。那么数据变换除了处理实体辨认成绩以外,还需求一致不同的数据库的数据的格式。
数据发掘:
经过数学算法对数据停止分析,得到数据之间的规律,或者是我们所需求的知识。
模型评价:
评价机器获得的模型能否不适用例如,假如模型是在机器学习后得到的,并且模型预测的精度为10%。因此模型评价的很大一部分也是对从学习机器中获得的知识能否准确和可用的评价。
数据输入:
将结果数据输入,并且将得到的知识表示出来,对应了知识表示。
数据在停止发掘时,我们往往都是经过某些属性得以判别某个结果,这就是数据发掘的基本规律。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
森sam
2020-9-4 14:00:31
显示全部楼层
不错不错,楼主快出来写点实战经验哇~
回复
使用道具
举报
如果再见那是梦
2020-9-5 11:07:54
显示全部楼层
OMG!介是啥东东!!!
回复
使用道具
举报
晨晨素子善CC
2020-9-6 09:55:28
来自手机
显示全部楼层
元芳你怎么看?
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
专食好嘢
金牌会员
0
关注
0
粉丝
73
帖子
Ta的主页
发布
加好友
最近发表
国产化率首超50%,工业机器人进出口形势逆转
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们