门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
数据分析和数据发掘的详细方法
返回列表
数据分析和数据发掘的详细方法
[复制链接]
羽千叶
2019-9-29 06:58:50
显示全部楼层
|
阅读模式
常见的数据处理技巧
数据的抽取要正确反应业务需求
真正熟习业务背景确保抽取的数据所对应的当时业务背景,与如今的业务需求即将运用的业务背景没有分明的严重改变
数据抽样:抽样方法多种多样,视详细场景运用。
分析数据的规模有哪些详细的要求
重点是考量目的变量所对应的目的事情的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量普通控制在8-20个以上。
如何处理缺失值和异常值
缺失值的常见处理方法
数据分析师首先应该知道数据缺失的缘由对于数据的缺失停止判别直接删除带有缺失值的数据元组(或观察对象)直接删除有大量缺失值的变量对缺失值停止交换对缺失值停止赋值
异常值的判别和处理:延续值和团圆值的异常值的处理方式不尽相反。
异常值有时也有比较好的运用价值。
数据转换
产生衍生变量
改变分布
分箱
标准化
挑选有效的输入变量
为什么
提高模型波动型提高模型预测才能提高运算速度和运算效率的需求
结合业务阅历停止先行挑选
用线性相关性目的停止初步挑选
R平方
卡方检验
WOE、IV、基尼系数
经过WOE的变化来调整出最佳的分箱阈值经过IV或者Gini挑选出有较高预测价值的自变量
部分建模算法本身的挑选功能
降维的方法
最后的准绳
既要贯彻落实上述种种有效的挑选输入变量的方法和原理,又要在数据发掘商业实战中综合思索诸多环境要素和制约条件,并加以权衡和折中。
共线性成绩
如何辨认共线性
相关系数模型结论主成分分析违犯业务阅历聚类
如何处理共线性
变量取舍变量组合变量转换
常见的数据发掘技术
聚类
聚类的场景:
目的用户的群体分类不同产品的价值组合探测、发现孤立点、异常值
次要聚类算法的分类:
划分方法层次方法基于密度的方法基于网格的方法
留意事项:
处理数据噪声和异常值数据标准化聚类变量的少而精
扩展运用:
聚类的核心目的与非聚类的业务目的相反相成数据的探求和清算工具个性化引荐的运用
聚类分析在实践运用中的优势和缺陷:
优点:聚类算法成熟;聚类业务解释度好;简约、高效;不依赖顺序缺陷:需求提早指定k;异常值敏感
聚类分析结果的评价体系和评价目的:
业务专家评价目的:RMSSTD、R-Square、SPR、Distance Between Clusters
预测呼应(分类)模型
神经网络的运用优势:
神经网络的缺陷和留意事项:
决策树
常见算法:CHAID、CART、ID3
运用优势:
缺陷和留意事项:
除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
heromxs
2019-9-29 12:23:59
显示全部楼层
专业抢沙发的!哈哈
回复
使用道具
举报
梦萍
2019-9-30 15:44:33
显示全部楼层
愣着干嘛,鼓掌啊
回复
使用道具
举报
糕富帅来也
2019-10-1 19:28:38
显示全部楼层
顶一个,顶一个,顶一个
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
羽千叶
金牌会员
0
关注
0
粉丝
105
帖子
Ta的主页
发布
加好友
最近发表
定档8月16日 | 2024亚洲智能穿戴大会
华为智能眼镜 2评测:可能是上班族最好用的智能穿戴
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们