vlambda博客
学习文章列表

基于残差分析的混合属性数据聚类算法

聚类分析在医学、图像分割、生物学、电子商务、互联网等领域得到了广泛应用。在实际应用环境中,被聚类的数据通常含有数值属性和分类属性,例如医学检测报告不仅有血压、脉搏等数值属性,而且还存在性别、婚姻状况、疾病定性检验结果等分类属性。现有聚类算法大部分只能对数值属性数据聚类,不能对混合属性数据聚类,如K-means、FCM、DPC、CLUB等。为了解决混合属性数据聚类问题,学者们提出了一些混合属性数据聚类算法,如K-prototypes、EKP、IKP-MD、FKP-MD、DP-MD-FN,但在没有先验知识的情况下,这些算法难于确定聚类个数和选取合适的聚类中心。造成聚类精度不高,如何准确地确定聚类中心和聚类个数成为混合属性数据聚类领域亟待解决的问题。

基于残差分析的混合属性数据聚类算法


邱保志, 张瑞霖, 李向丽. 基于残差分析的混合属性数据聚类算法. 自动化学报, 2020, 46(7): 1420-1432

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180030


以K-means为代表的基于划分的聚类算法以选取的初始聚类中心为基础,依据相似性将其余对象分配给相应的中心形成聚类,通过反复计算新的聚类中心和再分配,直至目标函数收敛为止,形成最终聚类。这种聚类中心计算方式和分配机制决定了这一类算法不能有效地处理非球形簇。DPC算法以局部密度峰值点为中心,中心周围低密度点的集合形成了以该峰值点为中心的一个聚类,其结构简单、易于理解。但聚类中心的选取需要人为参与,在缺少先验知识的情况下,算法的参数难以确定。CLUB算法通过k近邻建立密度骨架,并以此作为聚类的中心,将未标记的对象划归到距离最近的高密度对象所在的簇中形成聚类,有效的解决了桥接和同一个簇中出现多个聚类中心而导致错误划分的问题.但该算法只能处理数值属性数据集,并不能对混合属性数据进行聚类。

为了解决混合属性数据聚类问题,K-prototypes、EKP、IKP-MD、FKP-MD等算法以K-means聚类思想为基础,通过重定义相似性度量和改进聚类中心计算方式进行聚类,解决了K-means不能对混合属性数据聚类的问题。DP-MD-FN算法应用密度峰值技术和阈值截断方法对混合属性进行聚类,实现了聚类中心自动选取,但算法的参数鲁棒性较低。对混合属性数据聚类来说,如何降低聚类中心提取的偏差和更真实的反映数据的分布情况是提高聚类精度的关键问题。

针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题,提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on Residual Analysis)RA-Clust。算法以改进的熵权重混合属性相似性度量对象间的相似性,以提出的基于KNN和Parzen窗的局部密度计算方法计算对象的密度,通过线性回归和残差分析进行聚类中心预选取,然后以提出的聚类中心目标优化模型确定真正的聚类中心,最后将其它对象按照距离高密度对象的最小距离划分到相应的簇中,形成最终聚类。在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比,RA-Clust具有较高的聚类精度和鲁棒性。论文创新点如下:

1. 改进了混合属性数据的相似性度量;

2. 提出了一种基于KNN和Parzen窗的局部密度计算方法;

3. 提出了基于线性回归和残差分析的聚类中心预选取机制及聚类中心目标优化模型。

实验数据集以及部分实验结果如表1、2、3、4。

基于残差分析的混合属性数据聚类算法


基于残差分析的混合属性数据聚类算法


基于残差分析的混合属性数据聚类算法


基于残差分析的混合属性数据聚类算法


基于残差分析的混合属性数据聚类算法


基于残差分析的混合属性数据聚类算法


基于残差分析的混合属性数据聚类算法


作者简介

基于残差分析的混合属性数据聚类算法

邱保志

郑州大学信息工程学院教授.主要研究方向为数据库, 先进智能系统, 数据挖掘.

E-mail: [email protected]


基于残差分析的混合属性数据聚类算法

张瑞霖

哈尔滨工业大学博士研究生. 主要研究方向为数据挖掘和机器学习.本文通信作者.

E-mail: [email protected]

基于残差分析的混合属性数据聚类算法

李向丽

郑州大学信息工程学院教授.主要研究方向为计算机网络, 数据挖掘.

E-mail: [email protected]


期刊动态















热点文章









自动化学报

CJCR影响因子 2.793

《自动化学报》是由中国科学院自动化研究所、中国自动化学会主办的中文期刊,刊载自动化科学与技术领域的高水平科研成果,被EI, 英国科学文摘, 日本科学技术文献速报, 俄罗斯文摘杂志, CSCD等数据库收录,是中国科技核心期刊、中文核心期刊、中国科技期刊卓越行动计划入选期刊。 

根据中国学术期刊影响因子年报,《自动化学报》最新影响因子为5.936;根据中国科技期刊引证报告,《自动化学报》的核心影响因子为2.793,核心影响因子、总被引频次、综合评价总分、核心权威因子四项主要指标全部排名第1

《自动化学报》多年来多次获得 “百强报刊”, “精品科技期刊”、“百种杰出学术期刊”、“中国最具国际影响力学术期刊”等荣誉称号。

基于残差分析的混合属性数据聚类算法
基于残差分析的混合属性数据聚类算法

JAS《自动化学报》(英文版)   

基于残差分析的混合属性数据聚类算法
基于残差分析的混合属性数据聚类算法

《自动化学报》服务号 

《自动化学报》订阅号 


联系我们

网站:  http://www.aas.net.cn 

投稿: 

https://mc03.manuscriptcentral.com/aas-cn  

           010-82544677(录用后稿件处理)

邮箱:  [email protected](日常咨询和稿件处理)

           [email protected](录用后稿件处理)

博客:  

http://blog.sina.com.cn/aaseditor  


点击阅读原文 了解更多