门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
数据挖掘分析过程中,常见的数据处理方法有哪些? ...
返回列表
数据挖掘分析过程中,常见的数据处理方法有哪些?
[复制链接]
兴邦维权01
2023-12-19 09:04:33
显示全部楼层
|
阅读模式
在进行数据挖掘分析的时候,数据处理是非常重要的一环。数据处理一般是要结合实际业务做相应的数据处理,为后续机器学习建模做好准备。比如数据存在缺失值,就要做相应的缺失值的填充或删除操作;数据建模需要的数据存储在不同的表或源中,需要做相应的融合操作;拿到的数据是明细数据,但实际建模需要的是聚合数据等等。
一般的建模数据是整合清洗好的宽表数据,因此需要提前准备好需要分析的宽表数据。若没有,则需要通过DF对数据进行整合形成宽表,或者通过AI的扩展编程实现数据的整合,形成宽表进行落库,且要与建模流程分开,防止后期建模流程周期长、执行慢等问题,在部署时,可以采用调度编排对多个任务进行串连。
除了前面介绍到的缺失值和异常值问题及处理,平台中还有许多数据处理节点可以实现建模分析的前期准备工作,下面针对于不同的数据问题使用Tempo人工智能产品进行处理的方法进行介绍。
数据挖掘分析过程中,常见的数据处理方法有哪些?
数据重复
对于数据重复问题可以使用到的数据处理节点有数据去重和过程查询分析器。
数据去重节点有两种使用场景,一种是去掉所有列的完全重复数据,另一种是去掉指定列的完全重复数据。
在过程查询分析器中,支持“仅选择非重复行”,实现数据去重。
数据融合
可以使用到的数据处理节点包括数据连接、数据拆分、数据追加、数据差集、数据分解和过程查询分析器节点。
数据连接节点可以将多个表进行融合。支持多个数据表两两表之间单个或多个字段为连接字段的连接操作,连接方式包括内连接、完全外连接、左连接、右连接。
数据追加节点支持将多个表的行进行拼接。
过程查询分析器节点当连接多个数据集时,打开节点可以点击表连接对多张表进行连接配置从而达到表连接的目的。
排序
可以使用到的数据处理节点包括排序和过程查询分析器节点。
过程查询分析器节点通过数据排序功能进行实现。
排序节点可以对单个字段或多个字段组合的升序或降序排序。
其他
分类汇总节点可以按照某种分类变量和需要分析的数据进行分类计算,对原始数据分类,做出表格形式,便于直观地观察数据的大致分布情况。对数值型数据可以进行计数、最大值、最小值、平均值、求和、方差、标准差、唯一计数、上四分位数、下四分位数、中位数、变异系数和百分位数的处理方式;对字符型数据可以进行计数和唯一计数的处理方式。还可以选择单独输出汇总结果或选择原表数据与汇总结果拼接输出。
数据平衡节点可以将非平衡数据通过丢弃降低多值对应数量或者复制增加低值对应数量,让不同值下样本的数量能够大致相同。该节点提供了两种模式,一种是通过绝对数量进行数据平衡,另一种是通过调整因子。
随机抽样节点支持无放回抽样、有放回抽样、分层抽样和N中取1的抽样方法,还提供了按照绝对数量(近似)和相对比例进行抽样。
综合性节点
除去以上的数据处理方式,平台还支持一些综合性节点,支持实现更复杂的数据处理场景。
过程查询分析器是根据指定的条件从接入的数据表中提取数据,支持对数据进行表连接、计算列、数据选择、数据过滤、数据排序、汇总、去重等操作,实现接入数据的查询分析过程。
自动数据处理能够对用户输入的数据根据内置的数据处理规则进行自动处理,提高用户的数据处理效率。包括缺失值处理、离群值处理、标准差判断处理、单类别占比判断处理、单类别行数判断处理。
以上是使用Tempo人工智能平台进行数据挖掘分析建模过程中进行数据处理的方法介绍。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
大神点评
3
fupv0997
2023-12-19 14:57:51
来自手机
显示全部楼层
为毛老子总也抢不到沙发?!!
回复
使用道具
举报
蓝黑_红孩儿
2023-12-21 21:34:16
显示全部楼层
唉?楼主写完了?不打算多写点么?
回复
使用道具
举报
Angellling
2023-12-22 08:03:01
来自手机
显示全部楼层
顶起顶起顶起
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
兴邦维权01
中级会员
0
关注
0
粉丝
69
帖子
Ta的主页
发布
加好友
最近发表
重量仅4.21克!我国科研团队研发出太阳能动力微型无人机:在纯自
从几百到几亿美元,各类无人机已遍布战场,中国该如何应对?
航拍无人机怎么选?大疆无人机盘点推荐
比“顺丰双尾蝎”还强!国产11吨级无人机开建,又是全球第一?
大疆今天发布的无人机,让我觉得上天也没那么难
“彩虹”VS“翼龙”,中国军用无人机两大王牌,都各有哪些精品?
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们