门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
数据挖掘概述
返回列表
数据挖掘概述
[复制链接]
浑身都是G点
2022-6-18 08:15:36
显示全部楼层
|
阅读模式
一、什么是数据挖掘
各行各业已经在步入大数据时代,数据挖掘是在大型数据库中自动发现有用信息的过程过程,所以数据挖掘是
数据库中知识发现
(Konwledge Discovery in Database, KDD)的重要一环。
知识发现
区别于对数据库中数据进行单纯检索的操作,知识发现更加强调的是从现有的数据中挖掘出数据之间存在的模式。一个完整的知识发现过程还包含了数据挖掘前的
预处理
,比如特征工程、数据规范化等,以及数据挖掘之后的模式过滤、结果可视化、模式统计检验等
后处理
过程。
二、数据挖掘中面临的问题
在对大数据进行挖掘的过程中,还面临着许多的问题。这些问题包含数据本身导致的问题,也有数据在使用的时候发现的问题。
2.1 数据的标准化
数据标准化是一个大课题,例如,在金融行业中系统繁多,从各系统中获得的数据质量参差不齐,如果没有一个统一的标准,在我们获取源数据的过程中就会面临各种各样的数据质量问题,比如不同源系统提供的同一个字段属性数据明显不同或者同一个系统提供的一个字段属性下的数据存在不同的格式,甚至关键数据大量留空等问题,都会对数据挖掘的整个周期产生重大影响。
2.2 数据维度不断提升
数据维度可以理解为每条数据所包含的字段属性,在大数据时代每条记录拥有的字段属性都是成百上千的。例如,金融行业中一条客户信息,以前一条客户信息也许只包含了客户的一些职业、身份、住址等信息,但是随着金融行业的不断发展,业务产品不断的增加,客户在使用不同的金融产品过程中会留下更多的数据,这些数据被扩充到客户的关联信息中。
数据的维度不断提升虽然能够更加全面的展示数据属性,但是也更加容易在数据挖掘的过程中导致
维度灾难
,并且数据挖掘也需要消耗更多的计算资源。
2.3 数据来源更加复杂
传统的数据存储的同类型的数据,比如存储在
关系型数据库
中的数据。但是随着各个行业领域产生的数据越来越多,越累越复杂,例如:文本数据、音频数据、视频数据、图像数据等这类非传统数据的出现,导致以后更多的会使用
非关系型数据库
进行数据的存储。
数据挖掘面临的数据将会是更多的
异构数据
和
复杂数据
,在数据预处理和规约化方面会面临更多的挑战。
2.4 数据的所有权与共享
“数据是资产“的意识更加普遍化,数据的安全和隐私问题更加突出,对数据的使用和获取会更加严苛,这是将来在知识发现源头上可能会面临的新挑战。
2.5 更加多样的分析
传统的数据分析是通过
监督学习
的方式来进行数据的回归和分类研究,随着行业应用场景更加的多元化,将来通过
半监督学习
或者
非监督学习
的方式对数据进行分析和研究也会同样的重要。例如,客群聚类、信用卡欺诈检测等。
三、数据挖掘主要应用场景
通过统计学、机器学习、深度学习进行数据模式的识别。
3.1 进行预测分析
主要包含两类:
回归
建模,用于预测连续的目标变量;
分类
建模,用于预测离散的目标变量。建模的过程都是使用特定的算法训练出一个模型,目的是使该模型对真实数据输出的预测值和实际值之间误差最小,也称具有
强泛化能力
。例如,可以应用在客户的精准营销上,比如预测某个客户购买某个金融产品的金额或者是否购买概率等。
3.2 进行聚类分析
发现相关的观察值组群并进行划分,让属于同一簇的观测值组群相互之间尽可能的类似。例如,我们可以对金融客群进行分组,从高端到低端进行排列,根据不同组群喜好的金融产品进行差异化推荐。
3.3 进行关联分析
发现数据中存在的关联的模式。例如,识别客户的购买关联性,当客户购买A产品的时候同时还会购买B产品等。
3.4 进行异常检测
识别数据特征显著不同于其他数据的观测值,这类观测值我们也可以叫做异常点或者离群点。这里讨论的异常点不是数据中随机产生的噪声,而是合理的存在,比如信用卡欺诈检测,数据会明显的区别于正常数据特征,但是同时此类数据相对较少,如果构造检测规则也是巨大的挑战。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
大神点评
7
SīsTērs
2022-6-18 08:15:44
显示全部楼层
转发了
回复
使用道具
举报
尹龙义
2022-6-18 08:15:51
显示全部楼层
转发了
回复
使用道具
举报
山电寸十
2022-6-18 08:16:05
显示全部楼层
转发了
回复
使用道具
举报
伊森Levi
2022-6-18 08:16:53
显示全部楼层
转发了
回复
使用道具
举报
dai369000
2022-6-18 20:09:19
显示全部楼层
鼎力支持!!
回复
使用道具
举报
duckey_020
2022-6-20 21:53:35
显示全部楼层
我觉得不错,太厉害了
回复
使用道具
举报
清风@@影
2022-6-21 07:06:50
显示全部楼层
我也是坐沙发的
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浑身都是G点
金牌会员
0
关注
0
粉丝
94
帖子
Ta的主页
发布
发消息
加好友
最近发表
青岛海尔申请用于控制智能家居设备的方法及装置等专利,提高用户
最新AI大模型来了!马斯克发布Grok 3聊天机器人
菲律宾难受了,一架翼龙无人机飞向黄岩岛,可24小时不间断警戒
先进制造业进入爆发期 中国智能机器人产业崛起
智能家居-米家全屋智能方案
无人驾驶!亮相宜春一街头
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们