k均值聚类算法（k-means clustering algorithm）

vlambda
2020-11-03

k均值聚类算法（k-means clustering algorithm）

方以类聚，物以群分，吉凶生矣。——《周易·系辞上》

一、什么是聚类？

1.将有限集合中的对象划分成个非空子集，使得类内的对象相似、类间的对象不相似。

2.训练样本的标记信息未知，无监督学习。

3.通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。

4.无监督学习中，应用最广的是“聚类”。

二、聚类的发展

1.思想早

“方以类聚，物以群分，吉凶生矣。”《周易. 系辞上》

2.算法晚

上个世纪五十年代，以层次聚类算法、k-means 算法为代表

3.研究热

聚类分析研究热是本世纪的事情，其标志事件是谱聚类、协同滤波和聚类不可能性定理的提出等

三、传统的聚类分析方法分为四个部分

1.数据表示

2.聚类判据（聚类准则）

3.聚类算法

4.聚类评估（聚类有效性评价）

四、聚类算法设计准则

1.类紧致性准则: 对象与其所属类具有最大相似度(或最小相异度)

增强样本可分公理的要求

2.类分离性准则: 不同类表示的差异最大(类间距离越大越好)

增强类可分公理的要求

3.类一致性准则: 输入与输出之间误差最小(通常假设为真)

减弱类表示唯一公理的要求

4.奥卡姆剃刀准则: 选择简单的类表示

五、K-means算法

k均值聚类算法（k-means clusteringalgorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。k均值聚类是使用最大期望算法（Expectation-Maximizationalgorithm）求解的高斯混合模型（GaussianMixture Model, GMM）在正态分布的协方差为单位矩阵，且隐变量的后验分布为一组狄拉克δ函数时所得到的特例。

基本的步骤为：

step1：选定要聚类的类别数目k，选择k个中心点。

step2：针对每个样本点，找到距离其最近的中心点（寻找组织），距离同一中心点最近的点为一个类，这样完成了一次聚类。

step3：判断聚类前后的样本点的类别情况是否相同，如果相同，则算法终止，否则进入step4。

step4：针对每个类别中的样本点，计算这些样本点的中心点，当做该类的新的中心点，继续step2。

六、中医应用

通过对收集的944例高血压病病人症状进行频率描述，剔除频率百分比≤2．0%症状后，将剩余58个临床症状作为变量进行K-means聚类分析，得出聚类为7类时症状分布最明显，原始证型分类为痰湿壅盛、脾运失健、心肾失养，占21．2%;阴阳两虚、气血不足，占17.5%;气虚血瘀，占15.6%;肝火亢盛、心肾不足，占14.5%;中气不足、生化失源、水湿不化，占13.8%;肾阴不足、肝阳上亢、心肾不交，占8.9%;肾阳不足、心脾两虚，占8.6%。经过聚类分析总结后，按其所占比例排序，最终分类为7类:痰湿壅盛型、阴阳两虚型、气虚血瘀型、肝火亢盛型、中气不足型、阴虚阳亢型、肾阳不足型。