智客公社
标题:
什么是数据挖掘
[打印本页]
作者:
洋芋烧土豆片片
时间:
2022-6-25 11:36
标题:
什么是数据挖掘
[attach]747817[/attach]
数据挖掘
(Data Mining)是指从大量数据中提取出隐藏于这些数据中的规律,进而通过这些规律来预测未来或是指导人们做出相应的决策。
数据挖掘就是寻找隐藏在数据中的信息过程,如趋势,特征及相关性,也就是从数据中发掘信息或知识(Knowledge-Discovery in Databases,简称:KDD)。
Data mining provides a way for a computer to learn how to make decisions with data.
数据挖掘一般有
三个主要阶段
:数据准备,数据挖掘以及结果表达与解释。
数据准备:数据集成,数据选择及数据预处理
数据挖掘:利用机器学习、统计分析等方法,从数据中发现有用的模式或知识
结果表达与解释:模型评估,模型应用
数据挖掘的方法
:
分类:若预测的变量是离散的,称为分类;若预测的变量是连续,则称为回归。方法有决策树、朴素贝叶斯、逻辑回归、神经网络等。
聚类:从数据中找出相类似的数据并组成不同的组。方法有k-means算法、分层凝聚法(Hierarchical Agglomerative Methods)及估算最大值法(Estimation Maximization Algorithm)等。
关联:从数据中发现不同事物间的相关性,找出它们间的关联规则。
预测:从数据中找出变化规律,建立模型,并用模型来预测未来。
数机据挖掘十大算法
:
C4.5:机器学习中的一决策树算法
K-Means:聚类算法
SVM:Support Vector Machine, 支持向量机,是将向量映射到一个更高维的空间里, 在这个空间里建立一个最大间隔超平面
Apriori:关联规则算法
EM:Expectation-Maximization,最大期望
PageRank:根据网站的外部链接和内部链接的数量和质量,衡量网站的价值
AdaBoost:迭代算法,核心思想对同一训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来,构成一个更强的分类器
KNN:K-Nearest Neighbor,k最近邻,分类算法
朴素贝叶斯算法:Naive Bayesian Model,NBM,以概率形式表达所有形式的不确定
CART算法:Classification and Regression Trees,分类与回归树。
【注】图均来自网络。
作者:
铃儿000000
时间:
2022-6-25 17:22
赞一个!
作者:
不后悔_太难
时间:
2022-6-27 14:20
元芳你怎么看?
作者:
亚泰meimaobing
时间:
2022-6-28 08:29
秀起来~
欢迎光临 智客公社 (https://bbs.cnaiplus.com/)
Powered by Discuz! X3.5