智客公社

标题: 数据挖掘详解 [打印本页]

作者: 胡金楚    时间: 2022-9-18 19:46
标题: 数据挖掘详解
第一篇:概述
1. 数据分析与数据挖掘

1.1 数据分析

定义:数据分析是指采用适当的统计分析方法对收集到数据进行、概括和总结,对数据进行恰当地描述提取出有用的信息过程
例:连锁超市对上季度各种商品的销售量进行统计和分析,得出各种商品需求量和销售曲线,采购部门依次为依据进行采购策略调整
常见图:排列图,因果图,散布图,直方图,控制图

[attach]787735[/attach]




[attach]787736[/attach]

1.2 数据挖掘

数据挖掘 (Data Mining,DM) 是指从海量的数据中通过相关算法来发 现隐藏在数据中的规律和知识过程 。
为什么进行数据挖掘?
通常 将数据 挖掘视为中“知识发现 ”的同义词,也可以认为数据挖掘是知识发现中的一个步骤。
1.3 知识发现(KDD)的过程

重点

[attach]787737[/attach]

1.4 数据分析与数据挖掘的区别


[attach]787738[/attach]

1.5 数据分析与数据挖掘的联系

2. 分析与挖掘的数据类型

2.1 数据库数据

数据库系统(DataBase System,DBS)由一组内部相关的数据(称作数据库)和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理。

[attach]787739[/attach]

2.2数据仓库数据

数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者决策过程。

[attach]787740[/attach]

2.3 事务数据

事务数据库的每个记录代表一个事务,比如一个车次的订票、顾客的一个订单等等。

[attach]787741[/attach]

2.4 数据矩阵

数据矩阵中的数据对象的所有属性都是具有相同性质的数值型数据。

[attach]787742[/attach]




[attach]787743[/attach]

2.5 图和网状结构

图和网状结构通常用来表达不同结点之间的联系,比如人际关系网、网站之间的相互链接关系等。

[attach]787744[/attach]

2.6 其他类型数据

3. 数据分析与数据挖掘的方法

3.1 频繁模式

3.2 分类与回归

3.3聚类分析

聚类就是把一些对象划分为多个组或者“聚簇”,从而使得同组内对象间比较相似而不同组对象间差异较大。
例如:通信公司根据“工作时间通话时长”、“其他时间通话时长”、“本地通话时长”等属性对用户进行聚类分析,可以将用户划分为“商务用户”、“普通用户”以及“较少使用用户”。
3.4 离群点分析

离群点是指全局或局部范围内偏离一般水平的观测对象。
例如:当发现某个人的信用卡在不经常消费的地区短时间内消费了大量的金额,则可以认定这张卡的使用情况异常,可以作为离群点数据。
4. 数据分析与数据挖掘使用的技术


[attach]787745[/attach]

4.1 统计学方法

4.2机器学习

4.3 数据库与数据仓库

4.4 模式识别

4.5 高性能计算

高性能计算是指突破单个计算机资源不足的限制,使用多个处理器或多台计算机共同完成同一项任务的计算环境。

[attach]787746[/attach]

5. 应用场景及存在的问题

5.1 应用场景

5.2 存在的问题

第二篇:数据
1. 数据的属性

1.1 数据对象

1.2 属性

属性(特征,变量)是一个数据字段,表示数据对象的一个特征。
例如:客户编号、姓名、地址、商品编号、商品名、价格、种类等
1.3 属性类型

1.4离散属性vs连续属性

2. 数据的基本统计描述

2.1 中心趋势度量

2.2 数据分散度量

2.3 数据图形显示


[attach]787747[/attach]

3. 数据的相似性和相异性

3.1 数据矩阵与相异矩阵

3.2 标称属性的临近性度量

3.3二进制属性的临近性度量

3.4 数值属性的相异性

3.5 序数属性的邻近性度量

3.6 余弦相似性

第三篇:数据预处理
1. 数据存在的问题

数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。
现实世界中数据常常是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。
1.1 原始数据存在的问题

1.2 数据质量要求

准确性:数据记录的信息是否存在异常或错误。
完整性:数据信息是否存在缺失。
一致性:指数据是否遵循了统一的规范,数据集合是否保持了统一的格式
时效性:某些数据是否能及时更新
可信性:用户信赖的数据的数量
可解释性:指数据自身是否易于人们理解

1.3预处理主要任务

2. 数据清洗

数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。
2.1 空缺值处理

2.2 噪声处理

3. 数据集成

3.1 集成过程中涉及的实体识别

3.2冗余问题

3.3 检测冗余方法

这块有点复杂,看ppt实例。
4. 数据归约

对大规模数据库内容进行复杂的数据分析常需要消耗大量的时间,使得这样的分析变得不现实和不可行;
数据归约(data reduction):数据消减或约简,是在不影响最终挖掘结果的前提下,缩小所挖掘数据的规模;
数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性;
对归约后的数据集进行挖掘可提高挖掘的效率,并产生相同(或几乎相同)的结果。
4.1 数据归约的标准:

用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。
归约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果。

4.2 数量归约:直方图

4.3 数量归约:数据立方体

4.4 数据归约——属性子集选择

属性子集选择的基本启发式方法包括逐步向前选择、逐步向后删除、逐步向前选择和逐步向后删除的组合以及决策树归纳,表3.7给出了属性子集选择方法。

[attach]787748[/attach]

4.5 数据归约——抽样

不放回简单随机取样和放回简单随机取样重点
4.6 数量规约——聚类采样


[attach]787749[/attach]

4.7 数量规约——分层取样

首先将大数据集D划分为互不相交的层,然后对每一层简单随机选样得到D的分层选样。
如,根据顾客的年龄组进行分层,然后再在每个年龄组中进行随机选样,从而确保了最终获得分层采样数据子集中的年龄分布具有代表性。
5. 数据变化与数据离散化

数据变换:将数据转换成适合数据挖掘的形式
第四篇:数据仓库和OLAP
1.数据仓库基本概念

1.1 数据仓库的定义及特征

1.2 数据仓库体系结构


[attach]787750[/attach]

1.3 数据模型

1.4 粒度

2. 数据仓库设计

2.1 概念模型设计

4.2 逻辑模型设计

2.3 物理模型设计

3. 数据仓库实现

4. 联机分析处理

4.1 OLAP相关概念

4.2 OLAP操作

5. 元数据模型

5.1 元数据库

5.2 元数据类型

5.3 元数据作用

5.4 元数据的使用

技术人员
业务人员
高级使用人员

作者: 江浩维权    时间: 2022-9-18 19:46
转发了
作者: 小树啊    时间: 2022-9-18 19:47
转发了
作者: wq135886    时间: 2022-9-18 19:47
转发了
作者: 鹤岗猫猫    时间: 2022-9-18 19:47
[吃瓜群众]
作者: 鹤岗猫猫    时间: 2022-9-18 19:47
转发了
作者: shxj4485    时间: 2022-9-18 19:47
转发了
作者: kelong520    时间: 2022-9-20 18:21
路过的帮顶
作者: 小璐児161    时间: 2022-9-21 07:24
前排支持下
作者: qgfj2008    时间: 2022-9-21 12:32
确实不错,顶先




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4