洋芋烧土豆片片 发表于 2022-6-25 11:36:58

什么是数据挖掘



数据挖掘(Data Mining)是指从大量数据中提取出隐藏于这些数据中的规律,进而通过这些规律来预测未来或是指导人们做出相应的决策。

数据挖掘就是寻找隐藏在数据中的信息过程,如趋势,特征及相关性,也就是从数据中发掘信息或知识(Knowledge-Discovery in Databases,简称:KDD)。

Data mining provides a way for a computer to learn how to make decisions with data.

数据挖掘一般有三个主要阶段:数据准备,数据挖掘以及结果表达与解释。


数据准备:数据集成,数据选择及数据预处理

数据挖掘:利用机器学习、统计分析等方法,从数据中发现有用的模式或知识

结果表达与解释:模型评估,模型应用

数据挖掘的方法:

分类:若预测的变量是离散的,称为分类;若预测的变量是连续,则称为回归。方法有决策树、朴素贝叶斯、逻辑回归、神经网络等。

聚类:从数据中找出相类似的数据并组成不同的组。方法有k-means算法、分层凝聚法(Hierarchical Agglomerative Methods)及估算最大值法(Estimation Maximization Algorithm)等。

关联:从数据中发现不同事物间的相关性,找出它们间的关联规则。

预测:从数据中找出变化规律,建立模型,并用模型来预测未来。

数机据挖掘十大算法:

C4.5:机器学习中的一决策树算法

K-Means:聚类算法

SVM:Support Vector Machine, 支持向量机,是将向量映射到一个更高维的空间里, 在这个空间里建立一个最大间隔超平面

Apriori:关联规则算法

EM:Expectation-Maximization,最大期望

PageRank:根据网站的外部链接和内部链接的数量和质量,衡量网站的价值

AdaBoost:迭代算法,核心思想对同一训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来,构成一个更强的分类器

KNN:K-Nearest Neighbor,k最近邻,分类算法

朴素贝叶斯算法:Naive Bayesian Model,NBM,以概率形式表达所有形式的不确定

CART算法:Classification and Regression Trees,分类与回归树。

【注】图均来自网络。

铃儿000000 发表于 2022-6-25 17:22:51

赞一个!

不后悔_太难 发表于 2022-6-27 14:20:24

元芳你怎么看?

亚泰meimaobing 发表于 2022-6-28 08:29:01

秀起来~
页: [1]
查看完整版本: 什么是数据挖掘