算法名称
| 类型
| 特点
| 应用
|
K-means
| 基于划分方法的聚类
| 将数据分为K组,随机选取K个对象作为初始的聚类中心,计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心
| 客户分析与分类、图形分割
|
Birch
| 基于层次的聚类
| 通过扫描数据库,建立一个聚类特征树,对聚类特征树的叶节点进行聚类
| 图片检索、网页聚类
|
Dbscan
| 基于密度的聚类
| 将密度大的区域划分为族,在具有噪声的空间数据库中发现任意形状的簇,并将簇定义为密度相连的点的最大集合
| 社交网络聚类、电商用户聚类
|
Sting
| 基于网格的聚类
| 将空间区域划分为矩形单元,对于不同级别的分辨率,存在多个矩形单元,高层单元被划分为多个低层单元,计算和存储每个网格单元属性的统计信息
| 语音识别、字符识别
|
主成分分析(PCA)
| 线性降维
| 通过正交变换将一组可能存在相关性的变量数据转换为组线性不相关的变量,转换后的变量被称为主成分
| 数据挖掘、图像处理
|
线性判别分析(LDA)
| 线性降维
| 将高维空间中的数据投影到低维空间中,投影后各个类别的类内方差小,而类间均值差别大
| 人脸识别、舰艇识别
|
局部线性嵌入(LLE)
| 非线性降维
| 在保持原始数据性质不变的情况下,将高维空间的信号映射到低维空间,从而进行特征值的二次提取
| 图像识别、高维数据可视化
|
拉普拉斯映射(LE)
| 非线性降维
| 从局部近似的角度构建数据之间的关系,对要降维的数据构建图,图中的每个节点和距离它最近的K个节点建立边关系
| 故障检测
|