距离衡量指标
聚类效果衡量指标
参考: 聚类模型评估
常用评估:
类别信息已知
- 调和兰德系数 (ARI)
- 调和互信息 (AMI)
- 调和平均 (V-Measure)
类别信息未知
- 轮廓系数 (Silhouette Coefficient)
基于划分的聚类
- KMeans 参考:机器学习算法系列(11):聚类(2)—Kmeans
- K-mediods聚类,将Kmeans的平均值换成中值,避免噪声的干扰
- KMeans++: 优化KMeans的聚类中心初始化,选择距离当前聚类中心的距离概率最大可能的点作为下一个聚类中心。参考:K-Means++算法
层次聚类
自上而下的分裂层次聚类(DIANA)
自下而上的凝聚层次聚类(AGNES)
密度聚类
- DBSCAN : 参考 机器学习算法系列(11):聚类(3)—DBSCAN
- 密度最大值聚类: 参考 机器学习算法系列(11):聚类(4)—密度最大值聚类
- AP :参考 affinity propagation 近邻传播算法
谱聚类
- 谱聚类基本原理: 参考 谱聚类算法(Spectral Clustering)
谱聚类与PCA的异同: 参考 特征值与特征向量,PCA和谱聚类
一般步骤:
1)输入:相似度矩阵S(Rn∗n)、目标聚类数目k (在此之前需要完成两项工作: 1.选择合适的相似度函数,2.选择合适的聚类数目k)
2)构造出相似图及其赋权的邻接矩阵(weighted adjacency matrix) (这一步需要选择:相似图的类型以及相应的参数)
3)计算出相似图的Laplacian矩阵 (这一步需要选择:Laplacian矩阵的类型)
4)计算Laplacian矩阵的前k个特征值对应的特征向量,以这k个特征向量为列,拼出新的矩阵Un∗k)
5)视矩阵U的每一行为Rk中的一个点,对这n个点y1,y2,…yn进行k−means聚类,得到k个聚类C1,C2,…Ck
6)输出聚类结果A1,A2,…Ak:yi被分到Cj中的哪一类,xi就被分到相应的Aj类