找回密码
 立即注册
搜索

什么是数据挖掘



数据挖掘(Data Mining)是指从大量数据中提取出隐藏于这些数据中的规律,进而通过这些规律来预测未来或是指导人们做出相应的决策。

数据挖掘就是寻找隐藏在数据中的信息过程,如趋势,特征及相关性,也就是从数据中发掘信息或知识(Knowledge-Discovery in Databases,简称:KDD)。

Data mining provides a way for a computer to learn how to make decisions with data.

数据挖掘一般有三个主要阶段:数据准备,数据挖掘以及结果表达与解释。


    数据准备:数据集成,数据选择及数据预处理

    数据挖掘:利用机器学习、统计分析等方法,从数据中发现有用的模式或知识

    结果表达与解释:模型评估,模型应用

数据挖掘的方法

    分类:若预测的变量是离散的,称为分类;若预测的变量是连续,则称为回归。方法有决策树、朴素贝叶斯、逻辑回归、神经网络等。

    聚类:从数据中找出相类似的数据并组成不同的组。方法有k-means算法、分层凝聚法(Hierarchical Agglomerative Methods)及估算最大值法(Estimation Maximization Algorithm)等。

    关联:从数据中发现不同事物间的相关性,找出它们间的关联规则。

    预测:从数据中找出变化规律,建立模型,并用模型来预测未来。

数机据挖掘十大算法

    C4.5:机器学习中的一决策树算法

    K-Means:聚类算法

    SVM:Support Vector Machine, 支持向量机,是将向量映射到一个更高维的空间里, 在这个空间里建立一个最大间隔超平面

    Apriori:关联规则算法

    EM:Expectation-Maximization,最大期望

    PageRank:根据网站的外部链接和内部链接的数量和质量,衡量网站的价值

    AdaBoost:迭代算法,核心思想对同一训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来,构成一个更强的分类器

    KNN:K-Nearest Neighbor,k最近邻,分类算法

    朴素贝叶斯算法:Naive Bayesian Model,NBM,以概率形式表达所有形式的不确定

    CART算法:Classification and Regression Trees,分类与回归树。

【注】图均来自网络。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

铃儿000000 2022-6-25 17:22:51 显示全部楼层
赞一个!
回复

使用道具 举报

元芳你怎么看?
回复

使用道具 举报

秀起来~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies