机器学习小组知识点34：K-means聚类

xiaoxiao2021-03-25 179

监督学习和非监督学习前情回顾：

在聚类问题中，给定一个训练集，算法根据某种策略将训练集分成若干类。在监督式学习中，训练集中每一个数据都有一个标签，但是在如果分类问题中没有标签，我们可以将聚类算法称之为非监督式学习算法。这两种算法最大的区别还在于：监督式学习有标签，而非监督式学习没有标签。那么这里可以理解为标签实际上就是一种监督性质的分类，而无标签根据分布性质，那么我们称之为聚类。感兴趣同学可以查阅半监督学习。

算法基本内容

算法的核心目标就是将给定的数据集分成 k 类，具体做法为：

1、随机选取k个簇中心（cluster centroids）记为

μ1,μ2,...,μk∈Rn

2、重复下面过程直到收敛 { 对于每一个样例

i ，计算其应该属于的类

c(i)=arg minj∥x(i)−μj∥2 对于每一个类j，重新计算该类的质心

μj=∑mi=11{c(i)=j}x(i)∑mi=11{c(i)=j} }

K 是我们事先给定的聚类数，c(i) 代表样本 i 与k个簇中距离最近的那个簇的下标， c(i) 的值是1到 k 中的一个。质心μj 代表我们对属于同一个类的样本中心点的猜测。程序就这样反复进行直到收敛或者簇中心基本不动。

算法过程可以如下图示意，其中k取2：

K-means面对的一个重要问题是如何保证收敛，前面的算法中强调结束条件就是收敛，可以证明的是K-means完全可以保证收敛性。下面我们定性的描述一下收敛性，我们定义畸变函数（distortion function）如下：

J(c,μ)=∑i=1m∥x(i)−μc(i)∥2

J 函数表示每个样本点到其质心的距离平方和。K-means是要将J调整到最小。假设当前 J 没有达到最小值，那么首先可以固定每个簇中心μj，调整每个样例的所属的类别 c(i) 来让 J 函数减少，同样，固定c(i) ，调整每个簇中心 μj 也可以使 J 减小。这两个过程就是内循环中使J单调递减的过程。当 J 递减到最小时，μ和c也同时收敛。（在理论上，可以有多组不同的 μ和c 值能够使得 J 取得最小值，但这种现象实际上很少见）。其实整体来看，这个算法就是坐标上升算法. 如果畸变函数J是非凸函数，意味着我们不能保证取得的最小值是全局最小值，也就是说k-means对簇中心初始位置的选取比较敏感，但一般情况下k-means达到的局部最优已经满足需求。但如果你怕陷入局部最优，那么可以选取不同的初始值跑多遍k-means，然后取其中最小的 J 对应的μ和c输出。

算法优点

K-Means聚类算法的优点主要集中在:

算法快速、简单; 对大数据集有较高的效率并且是可伸缩性的; 时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是

O(nkt) ,其中

n 代表数据集中对象的数量，

t代表着算法迭代的次数，

k 代表着簇的数目。

算法缺点

k-means 算法缺点 1. 在 K-means 算法中K是事先给定的，这个 K <script type="math/tex" id="MathJax-Element-1216">K</script>值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。这也是 K-means 算法的一个不足。 2. 在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为 K-means算法的一个主要问题。对于该问题的解决，许多算法采用遗传算法（GA），例如文献中采用遗传算法（GA）进行初始化，以内部聚类准则作为评价指标。 3. 从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进，提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的侯选集。而在文献中，使用的 K-means 算法是对样本数据进行聚类，无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

参考文献： http://blog.csdn.net/xiaocainiaodeboke/article/details/50611890

转载请注明原文地址: https://ju.6miu.com/read-22456.html

技术

最新回复(0)