门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
数据分析和数据挖掘的具体方法
返回列表
数据分析和数据挖掘的具体方法
[复制链接]
齐齐
2022-6-15 23:02:41
显示全部楼层
|
阅读模式
常见的数据处理技巧
数据的抽取要正确反应业务需求
真正熟悉业务背景确保抽取的数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变
数据抽样:抽样方法多种多样,视具体场景使用。
分析数据的规模有哪些具体的要求
重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。
如何处理缺失值和异常值
缺失值的常见处理方法
数据分析师首先应该知道数据缺失的原因对于数据的缺失进行判断直接删除带有缺失值的数据元组(或观察对象)直接删除有大量缺失值的变量对缺失值进行替换对缺失值进行赋值
异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。
异常值有时也有比较好的应用价值。
数据转换
产生衍生变量
改变分布
分箱
标准化
筛选有效的输入变量
为什么
提高模型稳定型提高模型预测能力提高运算速度和运算效率的需要
结合业务经验进行先行筛选
用线性相关性指标进行初步筛选
R平方
卡方检验
WOE、IV、基尼系数
通过WOE的变化来调整出最佳的分箱阈值通过IV或者Gini筛选出有较高预测价值的自变量
部分建模算法自身的筛选功能
降维的方法
最后的准则
既要贯彻落实上述种种有效的筛选输入变量的方法和原理,又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件,并加以权衡和折中。
共线性问题
如何识别共线性
相关系数模型结论主成分分析违背业务经验聚类
如何处理共线性
变量取舍变量组合变量转换
常见的数据挖掘技术
聚类
聚类的场景:
目标用户的群体分类不同产品的价值组合探测、发现孤立点、异常值
主要聚类算法的分类:
划分方法层次方法基于密度的方法基于网格的方法
注意事项:
处理数据噪声和异常值数据标准化聚类变量的少而精
扩展应用:
聚类的核心指标与非聚类的业务指标相辅相成数据的探索和清理工具个性化推荐的应用
聚类分析在实际应用中的优势和缺点:
优点:聚类算法成熟;聚类业务解释度好;简洁、高效;不依赖顺序缺点:需要提前指定k;异常值敏感
聚类分析结果的评价体系和评价指标:
业务专家评估指标:RMSSTD、R-Square、SPR、Distance Between Clusters
预测响应(分类)模型
神经网络的应用优势:
神经网络的缺点和注意事项:
决策树
常见算法:CHAID、CART、ID3
应用优势:
缺点和注意事项:
除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
大神点评
7
仲恺花木
2022-6-15 23:03:36
显示全部楼层
转发了
回复
使用道具
举报
ada8242
2022-6-15 23:04:32
显示全部楼层
转发了
回复
使用道具
举报
levin2008
2022-6-15 23:05:12
显示全部楼层
转发了
回复
使用道具
举报
翼搏阴天
2022-6-15 23:05:45
显示全部楼层
转发了
回复
使用道具
举报
@Xizi_MZoDWffA
2022-6-15 23:05:52
显示全部楼层
转发了
回复
使用道具
举报
梦是反的么
2022-6-17 10:20:48
来自手机
显示全部楼层
回复
使用道具
举报
又月巴又月半
2022-6-18 14:47:54
来自手机
显示全部楼层
老哥,这波稳
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
齐齐
注册会员
0
关注
0
粉丝
22
帖子
Ta的主页
发布
发消息
加好友
最近发表
先进制造业进入爆发期 中国智能机器人产业崛起
无人驾驶!亮相宜春一街头
0.6mm超薄ePOP4x!江波龙智能穿戴存储再突破
力合微:PLC技术助力智能家居实现无需布线的智能化升级
智能穿戴设备概念升温 消费电子板块或迎估值重塑
孙傲:中国古代的“机器人”
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们