门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
从相关性分析到有监督学习,浅谈数据发掘分析 ...
返回列表
从相关性分析到有监督学习,浅谈数据发掘分析
[复制链接]
白羊Sure147
2020-9-11 09:03:31
显示全部楼层
|
阅读模式
相关性分析是我们做数据分析时最常用的一种方法。我们在对业务停止分析时,都会思索哪几个环节时互相影响的,经过层层推理,找到工作中的关键成绩,从而改进业务,提高工作效率。业务环节互相影响,在数据上的表现就是具有相关性。
我们按照数据的类型来说下,在做数据分析时会碰到哪些相关性分析。
首先,是延续型变量(数值)之间的相关性,这也是最常碰到的。我们会用相关系数来分析,最常用的当然是皮尔逊(Pearson)相关系数,取值-1到1之间,相对值越接近于1表示相关性越强,正负表示正相关和负相关。另外还有Spearman相关系数和Kendall相关系数,运用的条件不同,在此不深化引见了。实践上我们普通分析都是线性相关性,延续型变量的相关性除了用相关系数来分析外,还可以用散点图来分析。
假如存在线性相关性,在散点图上会趋近一条直线。
另外,就是延续型变量和分类型(字符型)变量之间的相关性了,这就计算不了相关系数了,在这里可以用方差分析来判别他们之间的相关性,方差分析实践上在检验几组样本的均值能否相等,就像做对照实验一样,把延续型变量按照分类型变量的取值停止分组,再比较每组的均值能否相等,相等阐明分组对延续型变量的取值没有影响,阐明他们之间没有相关性,反之,他们是有相关性的。
最后,就是分类型变量之间的相关性,可以运用列联表来分析,停止卡方检验,可以得到能否相关的结论。
大致说了相关性分析之后,我们再来看有监督学习。有监督学习是机器学习里的概念,是指从有标记的训练数据中推导出预测函数,详细来说就分类和回归成绩。其实,我们也可以从相关性分析的角度来了解有监督学习,这里的有标记的数据,实践上就是我们要分析的数据字段,相关性分析时我们往往只是在分析两个字段,1对1 的,而有监督学习,我们要分析的是多个字段了,是多对1了,分析多个字段综合起来与一个字段的相关性,这个1就是训练数据中的标记字段,假如这个标记字段是分类型的,就是分类成绩,假如这个标记字段是延续型的,就是回归成绩,可以说有监督学习的本质还是在做相关性分析,只是愈加复杂了,不是一个相关系数能描画的规律了,往往我们得到的复杂的预测函数。这个函数描画了标记字段和多个影响要素之间的相关性,例如最好了解的2种模型:性回归方程和决策树。
在大数据时代,我们搜集到的数据越来越多,我们分析的手腕也要越来越深化了,从简单的数据可视化展现,渐渐的要过渡到更深层次的数据规律探求了,相关性分析是个很好的终点。更多干货,下次再分享哦。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
CrAzy_gIRl
2020-9-11 15:19:42
显示全部楼层
前排顶,很好!
回复
使用道具
举报
网络流氓
2020-9-12 08:21:05
来自手机
显示全部楼层
啥玩应呀
回复
使用道具
举报
柴鱼花生周
2020-9-12 21:25:41
显示全部楼层
我有个小建议,楼主把内容写详细点吧才会吸引更多读者呀。
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
白羊Sure147
金牌会员
0
关注
0
粉丝
97
帖子
Ta的主页
发布
加好友
最近发表
国产化率首超50%,工业机器人进出口形势逆转
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们