干货分享！数据发掘，为什么需求数据预处理

水芙蓉1987 · 2019-12-6 12:07:24

在《数据分析的高级运用，是时分搞懂数据发掘了》一文中，为大家详细引见了数据发掘的商业价值，但是质量不高的数据会直接影响发掘结果，能够导致得出错误的商业结论。

跨行业数据发掘标准流程（CRISP-DM）把残缺的数据发掘过程定义为六个标准阶段，分别是业务了解、数据了解、数据预备、创建模型、模型评价和模型运用。

其中，数据预备是数据发掘流程中的一个重要环节。详细工作次要包括清算、规约、转换、抽样等一系列的预处理工作，提高数据的质量，使得数据发掘算法可以更高效的执行以及获得愈加有效的结果。

为什么要预处理数据

有些小伙伴能够会问，我的数据有现成的，为什么还要预处理数据，不能直接拿来停止数据发掘吗？回答是，当然能。但是，理想往往是残酷的！

1. 理想世界的数据是肮脏的（不残缺，含噪声，不分歧）。

2. 没有高质量的数据，就没有高质量的发掘结果。

3. 原始数据中存在很多成绩，

有哪些数据预处理方法

常用的数据预处理方法可以归纳为四个方面。

1、数据清算

缺失值处理：

数据集成与过滤：

2、数据规约

维规约：

数量规约和紧缩：

3、数据变换

属性构造：

归一化：

标准化：

团圆化：

4、数据抽样

经过数据抽样来减少用于发掘的数据量或者从一个大型数据集中提取大小固定的样本。

随机抽样：

分层抽样：

如何停止数据预处理

停止数据预处理的普通流程为：

我们在网上找到了泰坦尼克乘客数据集（该数据集被评为五大最合适数据分析练手项目之一），想对该数据集停止乘客能否存活的分类发掘，下期为大家引见。

这次将为大家引见如何应用豌豆DM工具的可视化数据探求和预处理功能，提高泰坦尼克乘客数据集的质量，便于后续的发掘。

上图是泰坦尼克乘客数据集导入后的一切字段，可以看到数据集有12个字段（特征），除了Survived（表示能否获救）外，其他是乘客的信息，为方便辨认，我们应用豌豆DM为每个字段加了中文标题。

第一步：数据探求

豌豆DM数据探求提供图表与图形协助了解数据集统计信息。

泰坦尼克乘客数据集一共有891条记录，其中Age，Cabin和Embarked三个字段有缺失值，为了准确的发掘，该数据集有下面几个成绩需求处理：

缺失值字段的处理

字段团圆化

值交换

第二步：数据处理

豌豆DM提供了一些简便易懂的可视化数据预处理方式，可以完成不同的数据预处理工作。

先用WonderDM创建一个自定义数据集，在这个新数据集上进入”数据预处理”，经过“添加操作”菜单，添加需求的数据预处理操作。

1、设置数据源，选择创建的titanic数据集对应的表。

2、添加“值交换”，将Age字段空值交换为平均值。

3、添加“团圆化”，对Age字段团圆化，分为三个年龄段，团圆化后的字段名为AGE_GRP。

4、团圆化后的AGE_GRP字段值不直观，则添加“值交换”进一步交换为“少年儿童”，“中青年”，“老年”。

5、将Survived字段值交换为Yes和No。由于原字段是逻辑型，需添加一个字符型字段存放Yes和No，在界面上添加一个“添加字段”，输入相应的转换表达式。

最后，一份残缺的数据预处理过程列表见下图，豌豆DM还提供拖拽操作，调整各项操作的执行顺序，用户可点击主界面上的“运转”按钮末尾数据预处理工作。

最终处理好的数据集如下图所示，Age字段空值采用了平均值填充，团圆化后的字段AGE_GRP采用了明白的年龄分组信息，IS_SURVIVED分别用Yes和No表示能否获救。

至此，我们完成了一个数据处理工作，运用亿信豌豆DM可视化的数据预处理操作过程也非常方便易懂。假如您对数据发掘也感兴味，可以一同交流交流哦~

正气存内 · 2019-12-6 17:38:02

前排支持下

狼齿_ · 2019-12-7 17:02:53

边撸边过

zhangqun张 · 2019-12-8 10:56:36

支持支持再支持

		自动登录	找回密码
密码			立即注册

干货分享！数据发掘，为什么需求数据预处理

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们