数据挖掘详解

胡金楚 发表于 2022-9-18 19:46:08

第一篇：概述
1. 数据分析与数据挖掘

1.1 数据分析

定义：数据分析是指采用适当的统计分析方法对收集到数据进行、概括和总结，对数据进行恰当地描述提取出有用的信息过程
例：连锁超市对上季度各种商品的销售量进行统计和分析，得出各种商品需求量和销售曲线，采购部门依次为依据进行采购策略调整
常见图：排列图，因果图，散布图，直方图，控制图

1.2 数据挖掘

数据挖掘 (Data Mining，DM) 是指从海量的数据中通过相关算法来发现隐藏在数据中的规律和知识过程。
为什么进行数据挖掘？

[*]数据的爆炸式增长 : 从TB 到PB
[*]数据是丰富的，急需发现知识数据是丰富的，急需发现知识 !
通常将数据挖掘视为中“知识发现 ”的同义词，也可以认为数据挖掘是知识发现中的一个步骤。
1.3 知识发现（KDD）的过程

重点

1.4 数据分析与数据挖掘的区别

1.5 数据分析与数据挖掘的联系

[*]数据分析的结果往需要进一步挖掘才能得到更加清晰，而数据挖掘发现知识的过程也需要对先验约束进行一定调整而再次进行数据分析。
[*]数据分析可以将变成信息，而挖掘知识如果需要从数据中发现知识，往需要分析和挖掘相互配合共同完成任务。
2. 分析与挖掘的数据类型

2.1 数据库数据

数据库系统（DataBase System，DBS）由一组内部相关的数据（称作数据库）和用于管理这些数据的程序组成，通过软件程序对数据进行高效的存储和管理。

2.2数据仓库数据

数据仓库（Data Warehouse，DW）是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理者决策过程。

2.3 事务数据

事务数据库的每个记录代表一个事务，比如一个车次的订票、顾客的一个订单等等。

2.4 数据矩阵

数据矩阵中的数据对象的所有属性都是具有相同性质的数值型数据。

2.5 图和网状结构

图和网状结构通常用来表达不同结点之间的联系，比如人际关系网、网站之间的相互链接关系等。

2.6 其他类型数据

[*]与时间相关的序列数据：不同时刻的气温、股票市场的历史交易数据
[*]数据流数据：监控中的视频数据
[*]多媒体数据：视频、音频、文本和图像数据
3. 数据分析与数据挖掘的方法

3.1 频繁模式

[*]频繁模式：数据中频繁出现的模式
[*]频繁项集：频繁在事务数据集中一起出现的商品集合
例如：在超市的销售中哪些商品会频繁地一起被购买?
[*]关联与相关性
例如：典型的关联规则
尿不湿——啤酒
3.2 分类与回归

[*]分类与标签预测是找出描述和区分数据类或概念的模型或函数，以便能够使用模型预测类标号未知的对象的类标号
[*]分类预测类别（离散的、无序的）标号，回归建立连续值函数模型，也就是用来预测缺失的或难以获得的数值数据值。
[*]典型方法：决策树，朴素贝叶斯分类，支持向量机，神经网络，规则分类器，基于模式的分类，逻辑回归 …
3.3聚类分析

聚类就是把一些对象划分为多个组或者“聚簇”，从而使得同组内对象间比较相似而不同组对象间差异较大。
例如：通信公司根据“工作时间通话时长”、“其他时间通话时长”、“本地通话时长”等属性对用户进行聚类分析，可以将用户划分为“商务用户”、“普通用户”以及“较少使用用户”。
3.4 离群点分析

离群点是指全局或局部范围内偏离一般水平的观测对象。
例如：当发现某个人的信用卡在不经常消费的地区短时间内消费了大量的金额，则可以认定这张卡的使用情况异常，可以作为离群点数据。
4. 数据分析与数据挖掘使用的技术

4.1 统计学方法

[*]统计学是通过对数据进行收集、整理、分析和描述，来达到对研究对象本质的理解和表示。
[*]在实际生活中，通常有一些过程无法通过理论分析直接获得模型，但可以通过直接或间接测量的方法获得描述目标对象的相关变量的具体数据，用来刻画这些变量之间关系的数学函数称为统计模型。
4.2机器学习

[*]机器学习主要研究计算机如何像人类学习知识那样自主地分析和处理数据，并作出智能的判断，并通过获得的新的知识对自身进行发展和完善。
[*]机器学习方法：包括监督学习、无监督学习、半监督学习等。
[*]监督学习需要在有标记的数据集上进行。
[*]无监督学习：可以在没有标记的数据集上进行学习，实质上无监督学习是一个聚类的过程。
[*]半监督学习：半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据来进行学习，其中标记的数据用来学习模型，而未标记的数据用来进一步改进类的边界。
4.3 数据库与数据仓库

[*]数据库系统是为了解决数据处理方面的问题而建立起来的数据处理系统，注重于为用户创建、维护和使用数据库。
[*]数据仓库汇集了来自多个不同数据源的数据，通过数据仓库，可以在不同的维度合并数据，形成数据立方体，便于从不同的角度对数据进行分析和挖掘。
4.4 模式识别

[*]模式识别的本质就是抽象出不同事物中的模式，并根据这些模式对事物进行分类或聚类的过程。
[*]研究内容：文字识别、语音识别、图像识别、医学诊断以及指纹识别等。
4.5 高性能计算

高性能计算是指突破单个计算机资源不足的限制，使用多个处理器或多台计算机共同完成同一项任务的计算环境。

5. 应用场景及存在的问题

5.1 应用场景

[*]商务智能：通过数据挖掘等技术可以获得隐藏在各种数据中的有利信息，从而帮助商家进一步调整营销策略。
[*]信息识别：信息识别是指信息接受者从一定的目的出发，运用已有的知识和经验，对信息的真伪性、有用性进行辨识和甄别。
[*]搜索引擎：根据用户提供的关键词，在互联网上搜索用户最需要的内容。
[*]辅助医疗：对大量历史诊断数据进行分析和挖掘，有助于医生对病人的病情进行有效的判断。
5.2 存在的问题

[*]数据类型的多样性
[*]高维度数据
[*]噪声数据
[*]分析与挖掘结果的可视化
[*]隐私数据的保护
第二篇：数据
1. 数据的属性

1.1 数据对象

[*]数据集由数据对象组成。一个数据对象代表一个实体。
例如：
销售数据库: 顾客、商品、销售
医疗数据库: 患者、医生、诊断治疗
选课数据库: 学生、教师、课程
[*]数据对象又称为样本、实例、数据点、对象或元组。
[*]数据对象用属性描述。数据表的行对应数据对象; 列对应属性。
1.2 属性

属性(特征，变量)是一个数据字段，表示数据对象的一个特征。
例如：客户编号、姓名、地址、商品编号、商品名、价格、种类等
1.3 属性类型

[*]标称属性(nominal attribute)：类别，状态或事物的名字。
每个值代表某种类别、编码或状态，这些值不必具有有意义的序，可以看做是枚举的。例如：头发颜色= {赤褐色，黑色，金色，棕色，褐色，灰色，白色，红色}
也可以用数值表示这些符号或名称，但并不定量地使用这些数。例如：婚姻状况，职业，ID号，邮政编码，可以用0表示未婚、1表示已婚
[*]二元属性(binary attribute)：布尔属性，是一种标称属性，只有两个状态：0或1。
对称的(symmetric): 两种状态具有同等价值，且具有相同的权重。例如：性别
非对称的(asymmetric): 其状态的结果不是同样重要。例如：体检结果（阴性和阳性），惯例：重要的结果用1编码（如，HIV阳性）。
[*]序数属性(ordinal attribute)，其可能的值之间具有有意义的序或者秩评定(ranking)，但是相继值之间的差是未知的。例如：尺寸={小，中，大}，军衔，职称
序数属性可用于主观质量评估例如：顾客对客服的满意度调查。0-很不满意；1-不太满意；2-基本满意；3-满意；4-非常满意
[*]数值属性(numeric attribute）:定量度量，用整数或实数值表示
区间标度(interval-scaled)属性：使用相等的单位尺度度量。值有序，可以评估值之间的差，不能评估倍数。没有绝对的零点。例如：日期，摄氏温度，华氏温度
比率标度(ratio-scaled)属性：具有固定零点的数值属性。值有序，可以评估值之间的差，也可以说一个值是另一个的倍数。例如：开式温标(K)，重量，高度，速度
1.4离散属性vs连续属性

[*]离散属性(discrete Attribute)：具有有限或者无限可数个值。有时，表示为整型量。
例如：邮编、职业或文库中的字集
二进制属性是离散属性的一个特例
[*]连续属性(Continuous Attribute)：属性值为实数，一般用浮点变量表示。
例如，温度，高度或重量，实际上，真实值只能使用一个有限的数字来测量和表示。
2. 数据的基本统计描述

[*]目的：更好地识别数据性质，把握数据全貌
[*]数据的基本统计描述：中心趋势度量，世俗据分散度量，数据地图形表示
[*]中心趋势度量：均值，加权算数均值，中位数，众数，中列数
[*]数据分散度量：极差，分位数，四分位数，方差，标准差
[*]数据的图形显示：箱图，饼图，频率直方图，散点图
2.1 中心趋势度量

[*]均值（Mean）
[*]加权平均数（Weighted Mean）
[*]中位数（Median）
[*]分组数据中位数（Grouped Median）
[*]众数（Mode）
[*]中列数（Midrange）
2.2 数据分散度量

[*]极差（全距，Range）
[*]分位数（Quantile）
[*]四分位数极差（InterQuartile Range, IQR）: Q3 - Q1
[*]方差
[*]标准差
2.3 数据图形显示

[*]盒图（又称箱线图，Box-plot）
[*]饼图（Pie Graph）
[*]频率直方图（Frequency Histogram）

[*]散点图（Scatter Diagram）
[*]基本统计图
3. 数据的相似性和相异性

[*]相似性(Similarity)
两个对象相似程度的数量表示
数值越高表明相似性越大
通常取值范围为
[*]相异性(Dissimilarity)(例如距离)
两个对象不相似程度的数量表示
数值越低表明相似性越大
相异性的最小值通常为0
相异性的最大值（上限）是不同的
[*]邻近性(Proximity):相似性和相异性都称为邻近性
3.1 数据矩阵与相异矩阵

[*]数据矩阵：对象-属性结构
行-对象：n个对象
列-属性：p个属性
二模矩阵(Two modes)
[*]相异性矩阵：对象-对象结构
n个对象两两之间的邻近度
对称矩阵
单模(Single mode)
3.2 标称属性的临近性度量

[*]相异性
p是对象的属性总数，m是匹配的属性数目（即对象i和j状态相同的属性数）
[*]相似性
3.3二进制属性的临近性度量

[*]相异性

[*]对称二进制属性
[*]非对称二进制属性

[*]相似性
3.4 数值属性的相异性

[*]欧几里得距离（Euclidean Distance）
[*]曼哈顿距离（Manhattan Distance)：每一项差的绝对值的和
[*]欧几里得距离和曼哈顿距离都满足如下数学性质：
①非负性：d(i,j)≥0：距离是一个非负的数值。
②同一性：d(i,i)=0：对象到自身的距离为0。
③三角不等式：d(i,j)≤d(i,k)+d(k,j)：从对象i到对象j的直接距离不会大于途经任何其他对象k的距离。
[*]闵可夫斯基距离（Minkowski Distance）
[*]切比雪夫距离（Chebyshev Distance）
[*]例：数值属性的相异性计算
给定两个对象分别用元组(2，8，7，4)和(1，5，3，0)描述，计算这两个对象之间的欧几里得距离、曼哈顿距离、闵可夫斯基距离（h=4），以及切比雪夫距离。欧几里得距离为：d(i,j)=√((2-1)2+(8-5)2+(7-3)2+(4-0)2 )=√42=6.48曼哈顿距离为：d(i,j)=|2-1|+|8-5|+|7-3|+|4-0|=1+3+4+4=12闵可夫斯基距离为：d(i,j)=∜(|2-1|4+|8-5|4+|7-3|4+|4-0|4 )=∜594≈4.94切比雪夫距离为：d(i,j)=max{|2-1|，|8-5|，|7-3|，|4-0|}=max{1，3，4，4}=4
3.5 序数属性的邻近性度量

[*]序数属性可以通过把数值属性的值域划分成有限个类别，对数值属性离散化得到。
[*]相异性：
假设f是用于描述n个对象的序数属性，关于f的相异性计算步骤如下：
①第i个对象的f值为xif，属性f有Mf个有序的状态，表示排位1，…，Mf。用对应的排位rif∈{1，…，Mf}取代xif。
②将对象的每个序数属性的值域映射到［0.0，1.0］上，以便每个属性都有相同的权重。通过用zif代替第i个对象的rif来实现数据规格化，其中
[*]③相异性可以用任意一种数值属性的距离度量计算，使用zif作为第i个对象的f值
3.6 余弦相似性

[*]余弦相似性（又称余弦相似度，Cosine Similarity）：是基于向量的，它利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。
第三篇：数据预处理
1. 数据存在的问题

数据预处理是数据挖掘中的重要一环，而且必不可少。要更有效地挖掘出知识，就必须为其提供干净，准确，简洁的数据。
现实世界中数据常常是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。
1.1 原始数据存在的问题

[*]数据的不一致（如单位）
[*]噪声数据
[*]缺失值
1.2 数据质量要求

准确性：数据记录的信息是否存在异常或错误。
完整性：数据信息是否存在缺失。
一致性：指数据是否遵循了统一的规范，数据集合是否保持了统一的格式
时效性：某些数据是否能及时更新
可信性：用户信赖的数据的数量
可解释性：指数据自身是否易于人们理解
1.3预处理主要任务

[*]数据清理（清洗）：去掉数据中的噪声，纠正不一致。
[*]数据集成：将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库。
[*]数据归约（消减）：通过聚集、删除冗余属性或聚类等方法来压缩数据。
[*]数据变换（转换）：将一种格式的数据转换为另一格式的数据(如规范化)。
2. 数据清洗

数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误，并提供数据一致性。

[*]缺失值的处理；
[*]噪声数据；
[*]不一致数据。
2.1 空缺值处理

[*]引起空缺值的原因：
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时，有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载
[*]空缺值要经过推断而补上
[*]如何处理空缺值
1）忽略元组：
若一条记录中有属性值被遗漏了，则将该记录排除在数据挖掘之外
但是，当某类属性的空缺值所占百分比很大时，直接忽略元组会使挖掘性能变得非常差
2）忽略属性列：
若某个属性的缺失值太多，则在整个数据集中可以忽略该属性
3）人工填写空缺值：
工作量大，可行性低
4）使用属性的中心度量值填充空缺值：
如果数据的分布是正常的，就可以使用均值来填充缺失值
如果数据的分布是倾斜的，可以使用中位数来填充缺失值。
5）使用一个全局变量填充空缺值：
对一个所有属性的所有缺失值都使用一个固定的值来填补（如“Not sure”或∞）。
6）使用可能的特征值来替换空缺值（最常用）：
生成一个预测模型，来预测每个丢失值
如可以利用回归、贝叶斯计算公式或判定树归纳确定，推断出该条记录特定属性最大可能的取值
2.2 噪声处理

[*]噪声(noise) ：被测量的变量产生的随机错误或误差：
数据收集工具的问题
数据输入错误
数据传输错误
技术限制
命名规则的不一致
[*]如何检测噪声数据
1）基于统计的技术
使用距离度量值（如马氏距离）来实现；
给定p维数据集中的n个观察值_（其中n>>p），用 ̅_表示样本平均向量，_表示样本协方差矩阵；
每个多元数据点i(i=1,2,……,n)的马氏距离用_表示；
2）基于距离的技术
计算n维数据集中所有样本间的测量距离；
如果样本S中至少有一部分数量为p的样本到_的距离比d大，那么样本_就是数据集S中的一个噪声数据；
[*]不一致数据处理
数据的不一致性，就是指各类数据的矛盾性、不相容性
数据库系统都会有一些相应的措施来解决并保护数据库的一致性，可以使用数据库系统来保护数据的一致。
3. 数据集成

[*]数据集成
把不同来源、格式、特点和性质的数据合理地集中并合并起来。
这些数据源可以是关系型数据库、数据立方体或一般文件。
[*]它需要统一原始数据中的所有矛盾之处，如字段的
同名异义；异名同义；单位不统一；字长不一致等。
[*]集成过程中需要注意的问题：集成的过程中涉及的实体识别问题；冗余问题。
3.1 集成过程中涉及的实体识别

[*]整合不同数据源中的元数据；
[*]进行实体识别：匹配来自不同数据源的现实世界的实体；
如：如何确定一个数据库中的brand和另一个数据库中的product是同一实体。
通常，数据库的数据字典和数据仓库的元数据，可帮助避免模式集成中的错误。
3.2冗余问题

[*]同一属性在不同的数据库或同一数据库的不同数据表中会有不同的字段名；
[*]一个属性可以由另外的属性导出，如：一个顾客数据表中的平均月收入属性，可以根据月收入属性计算出来。
3.3 检测冗余方法

[*]相关性分析
数值属性：采用相关系数和协方差进行相关性分析
标称属性：采用^2（卡方）检验进行相关性分析
这块有点复杂，看ppt实例。
4. 数据归约

对大规模数据库内容进行复杂的数据分析常需要消耗大量的时间，使得这样的分析变得不现实和不可行；
数据归约（data reduction）：数据消减或约简，是在不影响最终挖掘结果的前提下，缩小所挖掘数据的规模；
数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近保持原数据的完整性；
对归约后的数据集进行挖掘可提高挖掘的效率，并产生相同（或几乎相同）的结果。
4.1 数据归约的标准：

用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。
归约得到的数据比原数据小得多，但可以产生相同或几乎相同的分析结果。
4.2 数量归约：直方图

4.3 数量归约：数据立方体

[*]数据立方体是一类多维矩阵，可以使用户从多个角度探索和分析数据集，它的数据是已经处理过的，并且聚合成了立方形式。
[*]数据立方体的基本概念。
①方体：不同层创建的数据立方体。
②基本方体：最低抽象层创建的立方体。
③顶方体：最高层抽象的立方体。
④方体的格：每一个数据立方体。

4.4 数据归约——属性子集选择

属性子集选择的基本启发式方法包括逐步向前选择、逐步向后删除、逐步向前选择和逐步向后删除的组合以及决策树归纳，表3.7给出了属性子集选择方法。

4.5 数据归约——抽样

[*]允许用数据的较小随机样本（子集）表示大的数据集。
[*]取样方法：
不放回简单随机取样（Simple Random Sampling Without Replacement, SRSWOR）
放回简单随机取样（Simple Random Sampling With Replacement, SRSWR）
聚类取样（Clustered Sampling）
分层取样（Stratified Sampling）
不放回简单随机取样和放回简单随机取样重点
4.6 数量规约——聚类采样

4.7 数量规约——分层取样

首先将大数据集D划分为互不相交的层，然后对每一层简单随机选样得到D的分层选样。
如，根据顾客的年龄组进行分层，然后再在每个年龄组中进行随机选样，从而确保了最终获得分层采样数据子集中的年龄分布具有代表性。
5. 数据变化与数据离散化

数据变换：将数据转换成适合数据挖掘的形式

[*]平滑：去掉数据中的噪声，将连续的数据离散化
分箱；回归；聚类
[*]聚集：对数据进行汇总和聚集
avg(), count(), sum(), min(), max(),…；如，每天销售额（数据）可以进行聚集操作以获得每月或每年的总额；可用来构造数据立方体
[*]数据泛化：使用概念分层，用更抽象（更高层次）的概念来取代低层次或数据层的数据对象
如：街道属性，可以泛化到更高层次的概念，如城市、国家；
同样，对于数值型的属性，如年龄属性，可以映射到更高层次的概念，如年轻、中年和老年。
[*]规范化：把属性数据按比例缩放，使之落入一个特定的小区间
如：小数标定，最小-最大，z-score
[*]属性构造：通过已知的属性构建出新的属性，然后放入属性集中，有助于挖掘过程。
[*]离散化：数值属性的原始值用区间标签或概念标签替换。
如：分箱（等深，等宽）；直方图
第四篇：数据仓库和OLAP
1.数据仓库基本概念

1.1 数据仓库的定义及特征

[*]数据仓库是一个面向主题的、集成的、时变的并且非易失的，用于支持管理者决策过程的数据集合
[*]数据仓库的特征：面向主题的，集成的，时变的，非易失的
1.2 数据仓库体系结构

[*]底层-数据仓库服务器
使用一些后端工具和实用程序，对其他外部数据源的数据进行提取、清理、变换、装入和刷新，将高质量的数据更新到数据仓库。
数据集市，也叫数据市场，是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库，是数据仓库的子集。
[*]中间层：OLAP服务器
联机分析处理（Online Analytical Processing, OLAP）是数据仓库系统前端分析服务的分析工具，能快速汇总大量数据并进行高效查询分析，为分析人员提供决策支持。
使用OLAP相关模型将多维数据上的操作映射为标准的关系操作，或者直接实现多维数据操作
OLAP操作可以与关联、分类、预测、聚类等数据挖掘功能结合，以加强多维数据挖掘
[*]顶层：前端客户层
包括数据挖掘工具（如趋势分析、预测等）、数据分析工具和查询与报告工具。
用于知识发现相关工作人员（如经理、主管、分析人员等）直接操作获取知识。
1.3 数据模型

[*]数据模型是数据仓库建设的基础。
[*]一个完整、灵活、稳定的数据模型对数据仓库项目的成功有重要的作用。
数据模型是整个系统建设过程的导航图
有利于数据的整合
排除数据描述的不一致性
可以消除数据仓库中的冗余数据
[*]三级数据模型
概念模型：
对现实世界中问题域内的事物的描述，不是对软件设计的描述
逻辑模型：
对概念模型中的主题进行细化
定义实体与实体之间的关系，以及实体的属性
物理模型：
依照逻辑模型，在数据库中建表、索引等
为了满足高性能的需求，数据仓库可以增加冗余、隐藏表之间的约束等反第三范式操作
1.4 粒度

[*]数据仓库的数据单位中保存数据的细化或综合程度的级别
粒度越小，细节程度越高，综合程度越低，查询类型越多
[*]粒度越高，综合程度越高，查询的效率也越高
在数据仓库中可将小粒度的数据存储在低速存储器上，大粒度的数据存储在高速存储器上
2. 数据仓库设计

2.1 概念模型设计

[*]对数据仓库涉及的实体和客观的实体进行抽象、分析，并在此基础上构建一个相对稳固的模型
[*]需要充分了解业务及主要的关系，最终形成一个能够充分刻画对象的主题和关系的模型
[*]概念模型需要完成的工作有以下几个方面：
①界定系统边界，即全方位了解任务和环境，充分理解需求，绘制大致的系统边界，即数据仓库系统设计的需求分析。
②确定主要的主题域，完成对一些属性、主题域公共码以及主题域之间的联系的描述工作，其中的属性能够清楚、充分地代表主题。
③细分具体内容及确定分析维度，维元素对应的是分析角度，通常是一些离散型的数据；度量对应的是指标，实际使用中要根据指标的存储和查询使用的频度来判断分析指标属于维元素还是维属性。
[*]最常用的策略是自底向上的方法，即自顶向下地进行需求分析，然后再自底向上地设计概念结构，主要有以下两个步骤。
抽象数据并设计局部视图
集成局部视图，得到全局的概念结构
[*]多维数据模型
简洁、面向主题的；
直观的展示数据组织形式，利于数据的访问；
星形模型、雪花模型、事实星座模型；
4.2 逻辑模型设计

[*]进一步的完善和详细化设计，扩展主题域
[*]奠定数据仓库的物理设计的基础
[*]通过实体和实体之间的关系勾勒出整个企业的数据蓝图和规划
[*]逻辑模型设计主要有以下几个步骤：
分析主题域，确定要装载到数据仓库的主题
粒度层次划分，通过估计数据量和所需的存储设备确定粒度划分方案
确定数据分隔策略，将逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储
定义关系模式，概念设计阶段时基本的主题已经确定，逻辑模型设计阶段要将主题划分成多个表以及确定表的结构
[*]主要的工作是进行事实表模型设计和维度表模型设计
[*]包括事实表模型设计、维度表模型设计
2.3 物理模型设计

[*]需要在充分了解数据和硬件配置的基础上确定数据的存储结构、索引策略、数据存放位置等信息
[*]确定数据的存储结构
充分考虑所选择的存储结构是否适合数据的需要
考虑存储时间和存储空间的利用率
[*]构建索引策略
通过索引的构架可以提高查询的效率和数据库的性能
常见的索引策略有B树索引、位图索引、簇索引
[*]数据存放位置
相同主题的数据不需要存放在相同的存储介质
根据数据的使用频率和数据的重要程度以及时间响应要求，将不同数据存放在不同的存储设备上
3. 数据仓库实现

[*]数据仓库实现
是一个信息提供平台
从业务处理系统获得数据，并主要以星形模型和雪花模型进行数据组织
为用户提供各种手段从数据中获取信息和知识
是一个过程而不是一个工程
[*]数据仓库实现步骤
创建Analysis Services项目
定义数据源
定义数据视图
定义多维数据集
部署Analysis Services项目
[*]实现工具
SQL Server 2012
4. 联机分析处理

4.1 OLAP相关概念

[*]OLAP （联机分析处理）定义
使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的，并真实反映企业多维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。
[*]OLAP特点
快速性：系统能在秒级以内对用户的大部分分析要求做出响应
可分析性：能处理与应用有关的任何逻辑分析和统计分析
多维性：提供对数据分析的多维视图和分析，包括对层次维和多重层次维的完全支持
[*]OLAP体系结构：数据仓库与OLAP的关系是互补的，现代OLAP系统一般以数据仓库作为基础，即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取
[*]OLAP实现类型
关系OLAP（ROLAP）：以关系数据库为核心，以关系型结构进行多维数据的表示和存储。
多维OLAP（MOLAP）：以多维数据组织方式为核心，使用多维数组存储数据。
混合OLAP（HOLAP）：基于混合数据组织的OLAP实现。如低层是关系型的，高层是多维矩阵型的。
[*]OLAP与OLTP的区别
4.2 OLAP操作

[*]多维数据集
多维数据集可以用一个多维数组来表示，它是维和变量的组合表示。一个多维数据集可以表示为：（维1，维2，…，维n，变量列表）
[*]典型的 OLAP 操作——切片
在给定的数据立方体的一个维上进行的选择操作就是切片（Slice），切片的目的是降低多维数据集的维度，使注意力集中在较少的维度上。
例如，对图4-22所示的数据立方体，多维数据集通过对季度维度上选择第二季度切片，得到一个切片（“第二季度”，地区，商品，销售量）子集，相当于在原来的立方体中切出一片，结果如图4-23所示。
[*]典型的 OLAP 操作——切块
在给定的数据立方体的两个或多个维上进行的选择操作就是切块（Dice），切块的结果是得到了一个子立方体。
例如，对图4-22所示的数据立方体，在时间维上选择第一季度和第二季度，在商品维上选择电视机和电冰箱，在地区维上选择北京，结果如图4-24所示。
[*]典型的 OLAP 操作——上卷
上卷（Roll-Up）是在数据立方体中执行聚集操作，通过在维级别上升或通过消除某个或某些维来观察更概括的数据。
例如，将图4-22所示的数据立方体沿着维的层次上卷，由“季度”上升到半年，得到图4-25所示的立方体。
[*]典型的 OLAP 操作——上卷
上卷的另外一种情况是通过消除一个或多个维来观察更加概括的数据。
例如，图4-26所示的二维立方体就是通过将图4-22所示的三维立方体中消除了“商品”维后得到的结果，将所有商品的销量都累计在一起了。
[*]典型的 OLAP 操作——下钻
下钻（Drill-Down）是通过在维级别中下降或通过引入某个或某些维来更加细致地观察数据。
例如，对图4-22所示的数据立方体经过沿时间维进行下钻，将第一季度下降到月，就得到如图4-27所示的数据立方体。
[*]典型的 OLAP 操作——旋转
改变数据立方体维次序的操作称为旋转（Rotate）。旋转操作并不对数据进行任何改变，只是改变用户观察数据的角度。行列交换。
例如，图4-28所示的立方体就是将图4-22所示立方体的“商品”和“地区”两个轴交换位置的结果。
5. 元数据模型

5.1 元数据库

[*]元数据是定义数据仓库对象的数据
[*]元数据包括以下内容
①数据仓库结构的描述：模式、视图、维、分层结构、导出数据的定义、数据集市的位置及内容
②操作数据源：数据血统（迁移数据的历史和它使用的变换序列），数据流通（主动的、档案的或者净化的）和管理信息（仓库使用的统计量、错误报告和审计跟踪）
③用于汇总的算法
④由操作环境到数据仓库的映射
⑤关于系统性能的数据：数据仓库模式、视图和导出数据的定义
⑥商务数据：商务术语和定义、数据拥有者信息、收费策略
[*]元数据实例

5.2 元数据类型

[*]根据使用情况不同
业务元数据：从业务角度对数据仓库的数据进行描述
技术元数据：描述了关于数据仓库技术细节，主要用于开发、管理、和维护数据仓库
[*]根据元数据的状态
静态元数据：主要包括业务规则、类别、索引、来源、生成时间、数据类型等
动态元数据：主要包括数据质量、统计信息、状态、处理、存储位置、存储大小、引用处等
5.3 元数据作用

[*]数据仓库内容的描述
[*]定义抽取和转化
[*]基于商业事件的抽取调度
[*]数据质量保证
5.4 元数据的使用

技术人员
业务人员
高级使用人员

江浩维权 发表于 2022-9-18 19:46:42

转发了

小树啊 发表于 2022-9-18 19:47:03

转发了

wq135886 发表于 2022-9-18 19:47:08

转发了

鹤岗猫猫 发表于 2022-9-18 19:47:31

[吃瓜群众]

鹤岗猫猫 发表于 2022-9-18 19:47:42

转发了

shxj4485 发表于 2022-9-18 19:47:56

转发了

kelong520 发表于 2022-9-20 18:21:14

路过的帮顶

小璐児161 发表于 2022-9-21 07:24:40

前排支持下

qgfj2008 发表于 2022-9-21 12:32:41

确实不错，顶先

页: [1]

智客公社's Archiver

数据挖掘详解