vlambda
2020-06-24

一文了解k-means聚类算法

之前的课程，我们学习了线性回归、逻辑回归、k-近邻算法、SVM、朴素贝叶斯、决策树、随机森林的算法，这些算法有一个共同点就是，它们都是监督学习的算法，即训练样本的标记信息是已知的，数据是有标签的。

而相对地，也有非监督学习算法，该算法所用的数据无标签。我们不会告诉算法某个数据属于哪一类，它会自己找出关系，无需帮助。

今天我们将学习一个非监督算法——k均值（k-means）聚类算法，内容将有以下几部分：

1、什么是非监督学习
2、什么是聚类算法
3、什么是k-means聚类
4、k-means聚类算法的工作过程
5、k-means聚类算法的应用

k-means聚类算法

什么是非监督学习

概念

非监督学习是解决一些我们不知道结果应该是什么样的问题。它只基于输入的数据来发现模式，当我们非常不确定在寻求什么的时候这个技术非常有用。

非监督学习的数据没有标签，目标是为了揭露训练样本的内在属性，结构和信息。

如下图的数据集，最后一列purchased即用户是否有意愿购买汽车，0代表不购买，该列可以作为标签，我们可以利用监督学习的方法来训练模型，使得模型通过预估薪水和年龄来预测它的购买意向。

然而再看下图的数据，可能由于现实情况，我们得到的数据缺少先验知识，也就是没有标签，但我们依然可以用数据来挖掘信息，这里就可以用到非监督学习。

一文了解k-means聚类算法

非监督学习的常见应用一：异常检测。检测异常的信用卡转账以防欺诈，或者在训练之前自动从训练集去除异常值。异常检测的系统使用正常值训练的，当碰到新实例，它可以判断这个新实例是否像正常值或异常值。

非监督学习的常见应用二：关联性规则学习。目标是挖掘大量数据以发现属性间有趣的关系。例如，发现买了烧烤酱和薯片的人也会买牛排，因此可以将这些商品放在一起。

非监督学习的类型

降维：目的是简化数据、但是不能失去大部分信息，即通过找到共同点来减少数据集的变量，做法之一是合并若干相关的特征，也就是特征提取。降维可以使计算机运行的更快，占用的硬盘和内存空间更少，也许可以提升性能。例如，汽车的里程数与车龄高度相关，降维算法就会将它们合并成一个。

非监督学习最典型的一个类型为聚类。

什么是聚类算法

聚类算法的目的就是将数据点划分为不同的团体里，并且使一个点和同一个集群里的点的相似度要比它和其他集群的点的相似度要大。

一文了解k-means聚类算法

聚类算法包括k-means聚类、密度聚类、层次聚类等，今天讲的是k-means聚类算法。

什么是k-means聚类

k-means聚类算法又称k均值算法，在这个算法中，我们将把实体分为不相交的k个簇，同一个簇中的所有实体之间尽可能地相似，并且不在同一个簇的实体尽可能不相似。

距离测算（例如欧式距离）常被用于计算数据点之间的相似度和差异性。

k-means聚类如何工作

1、最初代表k个簇的中心点是在数据域中随机选取的。(本例k=3）

一文了解k-means聚类算法

2、通过将每个样本与离它最近的中心点相关联，形成了k个簇。

一文了解k-means聚类算法

3、通过找到k个簇中各自的样本点的平均值，将其作为新的中心点。（图中虚线的点为原来的中心点）

一文了解k-means聚类算法

4、新的簇形成。第二步和第三步一直重复直到中心点的变化幅度小于某个阈值。

一文了解k-means聚类算法

k-均值聚类的目标是最小化总的簇内方差，是衡量内部聚类的方式的指标。

一文了解k-means聚类算法

该公式刻画了簇内样本围绕簇中心点的紧密程度，该值越小表示簇内样本相似度越高。

再通过一个例子熟悉上述的步骤：

比如下图的数据要分两类（标准化之后的数据），k=2：

一文了解k-means聚类算法

①随机选取两个簇的中心，假设为1和3号，即(0.03,0.3),(0.32,-0.29)

②样本2距离两个中心的距离分别为1.304和1.956，因此样本2被划入簇1中，同理，通过计算样本4被划入类别2中。

③于是形成这样的两个簇，(样本1，样本2)，(样本3，样本4)

④根据这两个新的簇，重新计算中心点，得到(-0.35,0.83),(0.13,-0.36)

通过新的簇中心来重新将样本划分，不断重复，直到中心点的变化小于阈值。