k均值聚类算法(k-means clustering algorithm)
方以类聚,物以群分,吉凶生矣。——《周易·系辞上》
一、什么是聚类?
1.将有限集合中的对象划分成个非空子集,使得类内的对象相似、类间的对象不相似。
2.训练样本的标记信息未知,无监督学习。
3.通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
4.无监督学习中,应用最广的是“聚类”。
二、聚类的发展
1.思想早
“方以类聚,物以群分,吉凶生矣。”《周易. 系辞上》
2.算法晚
上个世纪五十年代,以层次聚类算法、k-means 算法为代表
3.研究热
聚类分析研究热是本世纪的事情,其标志事件是谱聚类、协同滤波和聚类不可能性定理的提出等
三、传统的聚类分析方法分为四个部分
1.数据表示
2.聚类判据(聚类准则)
3.聚类算法
4.聚类评估(聚类有效性评价)
四、聚类算法设计准则
1.类紧致性准则: 对象与其所属类具有最大相似度(或最小相异度)
增强样本可分公理的要求
2.类分离性准则: 不同类表示的差异最大(类间距离越大越好)
增强类可分公理的要求
3.类一致性准则: 输入与输出之间误差最小(通常假设为真)
减弱类表示唯一公理的要求
4.奥卡姆剃刀准则: 选择简单的类表示
五、K-means算法
k均值聚类算法(k-means clusteringalgorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。k均值聚类是使用最大期望算法(Expectation-Maximizationalgorithm)求解的高斯混合模型(GaussianMixture Model, GMM)在正态分布的协方差为单位矩阵,且隐变量的后验分布为一组狄拉克δ函数时所得到的特例。
基本的步骤为:
step1:选定要聚类的类别数目k,选择k个中心点。
step2:针对每个样本点,找到距离其最近的中心点(寻找组织),距离同一中心点最近的点为一个类,这样完成了一次聚类。
step3:判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入step4。
step4:针对每个类别中的样本点,计算这些样本点的中心点,当做该类的新的中心点,继续step2。
六、中医应用
通过对收集的944例高血压病病人症状进行频率描述,剔除频率百分比≤2.0%症状后,将剩余58个临床症状作为变量进行K-means聚类分析,得出聚类为7类时症状分布最明显,原始证型分类为痰湿壅盛、脾运失健、心肾失养,占21.2%;阴阳两虚、气血不足,占17.5%;气虚血瘀,占15.6%;肝火亢盛、心肾不足,占14.5%;中气不足、生化失源、水湿不化,占13.8%;肾阴不足、肝阳上亢、心肾不交,占8.9%;肾阳不足、心脾两虚,占8.6%。经过聚类分析总结后,按其所占比例排序,最终分类为7类:痰湿壅盛型、阴阳两虚型、气虚血瘀型、肝火亢盛型、中气不足型、阴虚阳亢型、肾阳不足型。
通过K-means聚类分析对944例高血压病病人中医证型进行分类、研究、分析及认识,为中医临床辨证论治提供更多理论依据和参考,有助于防治及控制疾病的进一步发生及发展,建立完善的高血压病中医证型体系。
参考文献:卢双双,张进进,马晓聪,李玉华,陈春玲,岳桂华.高血压病人中医证型的聚类分析[J]. 中西医结合心脑血管病杂志,2019,04:485-488.
推荐阅读:
2.
3.
4.
5.
古今医案云平台
提供40余万古今医案检索服务
支持手工、语音、OCR、批量医案结构化录入
设计九大分析模块,贴近临床实际需求
支持平台海量医案与个人医案协同分析
云医案APP
云医案V1.2.4新增健康医历、快速采集的功能。对写医案、说医案和扫医案的字段输入进行整体优化以及局部功能变更,医案管理、医案同步、个人中心做了相应调整。
仅支持安卓手机,扫描下方二维码进行下载或识别下载。
中国中医科学院中医药信息研究所
中医药大健康智能研发中心
大数据研发部
qq:2778196938
客户端下载:www.yiankb.com