vlambda博客
学习文章列表

聚类算法中的若干挑战问题


国防科技大学祝恩教授围绕聚类算法,探讨在实际应用中面临的若干现实挑战问题。



聚类是模式识别、机器学习、数据挖掘等领域中的基础算法,在商业选址、金融产品推荐、异常检测等方面有广泛应用,但在实际应用中聚类可能遇到一些现实挑战问题。



聚类算法中的若干挑战问题



聚类算法在实际应用中会面临一些现实的挑战问题,最新的聚类算法的研究热点围绕如何解决这些问题:

  

No.1

如何针对有缺失特征的数据进行聚类?



现实数据经常存在缺失的情况。例如医疗诊断中每个患者的检测报告中并没有包含所有的检测项目,没有检测的项目就是缺失特征,如何在特征缺失的情况下进行聚类是当前研究的一个热点。现有的方法一般是对缺失的样本进行填充后对完整数据矩阵进行聚类分析,常见的填充方法有均值填充、零填充、低秩填充以及EM填充等。这些方法一般将缺失填充过程和后续的聚类过程隔离开来,相互独立。最新的研究考虑如何将填充和聚类两个步骤统一到一个目标函数中进行优化,使得为了聚类更好地填充缺失数据。通过结合先验的领域知识,对缺失值进行更好的估计是该背景下较为可行的方向。


No.2

如何融合多个视图进行聚类?



现实数据经常存在多个视图。医疗诊断中患者检测和诊断报告中既有检测中产生的图像数据(图像视图),又有文本数据(文本视图)。多视图聚类集成多视图的特征以得到优化的聚类结果。处理多视图的聚类算法包括:拼接不同视图形成一个单一视图、融合不同视图的图结构形成一个优化的图结构、综合来自不同视图的核、对不同视图的聚类结构进行后期融合等。多视图聚类的一个关键问题是如何提取不同视图的一致信息和互补信息进行聚类。


No.3

如何利用监督信息进行聚类?



纯无监督聚类被视为一个病态问题。因为不同的准则可以得到不同的聚类结果,而每种聚类结果在现实中都可能是合理的。如果给定某些样本对必须在同一个类中,另一些样本对必须在不同的类中,这些信息被称为监督信息,这些信息将帮助聚类。监督信息可以融合到聚类目标函数中实现聚类模型的优化。


No.4

如何对大规模数据聚类?



大数据背景下,一些经典的算法变得不可操作。例如相似度矩阵的处理就很困难,因为矩阵太大,在常规计算机中难以进行存储和计算。我们可以考虑从完整数据集中采样得到一个子集,这个子集得到的小矩阵可近似地还原出完整集合对应的大矩阵,处理小矩阵会高效和可行得多。采样多个子集然后融合每个子集的结果提供了对大规模聚类的可行途径。在这个任务中,可以有效地利用并行计算技术。


No.5

如何对高维数据聚类?



高维数据聚类是一个挑战问题。在高维空间中,样本具有很强的稀疏性,任意两个样本之间的相似度接近零。经典聚类算法可能会失败,因为它们依据相似性度量对样本进行分组。处理高维数据的常规思路是降维。PCA是常用的降维方法之一,不过PCA方法无法实现复杂的非线性降维。子空间聚类是最近的处理高维数据聚类的新方法。一些算法可以将降维与聚类统一起来,为了聚类实现最优的降维。


No.6

如何提取合适的特征进行聚类?



经典聚类算法中特征提取和聚类是两个独立步骤,特征的提取并没有考虑如何有利于聚类。深度学习提供了联合优化特征提取和聚类两个步骤的途径,聚类结果的评估可以加入到深度特征提取的目标函数中,从而深度特征提取步骤可以优化参数使得提取的特征更适合聚类。最近的研究工作聚焦于考虑如何联合优化一个深度学习模型与一个聚类模型。


No.7

如何自适应地确定聚类个数?



现有聚类算法一般需要预先指定聚类个数,而在现实应用中,很难获取该先验知识。如何自动推断聚类个数、降低对先验知识的依赖是聚类算法面临的一个挑战。在低维空间中设计基于密度的算法是一个可行的解决方案。高维数据首先需要降维,可以学习高维数据的低维表示。在降维后的空间中,设计新型的基于密度的方法并结合可视化结果估计类别个数。表示学习和聚类个数的自适应推断如何联合优化是一个有待解决的问题。


No.8

如何使用聚类算法服务于机器学习的其他方面?



例如利用聚类减少分类任务中样本的人工标注数、发现异常、组合多种聚类算法构造新算法等。使用聚类算法对无标签数据进行分簇,然后寻找少量标注样本与各个簇的数据之间的对应关系,从而实现对无标注样本的快速粗略分类。这可用来指导训练过程。此外,可以使用聚类发现异常或离群点,从而对学习模型进行提升。

 


作者简介



聚类算法中的若干挑战问题

Prof. En Zhu


National University of

Defense Technology


聚类算法中的若干挑战问题

祝恩,国防科技大学计算机学院教授。主要研究领域包括聚类算法、异常检测、计算机视觉、医学图像分析、视频识别等。在TPAMI/TKDE/TNNLS/TC/TCSVT/NeurIPS/AAAI/IJCAI/ACM MM等发表论文160余篇。授权专利3项。获全国优秀博士学位论文奖。湖南省自然科学一等优秀论文2篇、湖南省自然科学一等奖1项。获湖南省首届优秀研究生导师团队奖。两次获校优秀研究生导师奖。

聚类算法中的若干挑战问题



AI 核心技术前沿专题


聚类算法中的若干挑战问题

AI 核心技术前沿研究专题,限时开放领域精选期刊论文与图书章节,领域专家独家文章。7月21日,我们还将举办在线研讨会,欢迎扫码或者点击阅读原文了解更多!


聚类算法中的若干挑战问题

聚类算法中的若干挑战问题

人工智能核心技术专辑


阅读原文,前往AI核心技术前沿专题页面获取更多信息!

© 2020 Springer, part of Springer Nature. 

All Rights Reserved.