基于深度综合相关性挖掘的图像聚类算法
本文Deep Comprehensive Correlation Mining for Image Clustering近期被计算机视觉顶级会议International Conference on Computer Vision (ICCV 2019) 接收,代码将发布于https://github.com/Cory-M/DCCM。
01
引言
聚类是计算机视觉中的一项重要的研究课题。随着互联网的发展,我们每天都可以收集大量的未标注的图像,而人工标注将耗费大量的财力物力。为了充分利用这些未标注的数据,无监督聚类近期受到研究者的广泛关注,其通过探究样本间的特征相关性,基于一些相似性准则将数据分为不同的类别。
对于自然图像,即便它们属于相同的类别,仍会表现出不同的形状、颜色和姿态等,故图像聚类是一项很有挑战性的任务。传统的聚类方法,例如K-means、谱聚类和子空间聚类等,在此任务上均不能表现出很好的性能。其原因主要有两个:首先,传统的聚类方法是基于传统的手工特征提取方法的,而这些特征的表示能力有限,不能根据数据的分布来动态调整特征的表示,例如对于固定的图片,其提取的SIFT、HOG等传统手工特征是固定不变的,这就限制了其在大规模数据集上的表达能力;其次,在传统的聚类方法中,特征提取和聚类算法是两个分离的过程,故而得到的聚类结果是次优的。针对以上传统聚类方法存在的问题,鉴于深度学习强大的特征表示能力,基于深度学习的聚类算法受到大家广泛的关注,此类方法将深度学习与传统聚类方法进行融合,很好地解决了以上传统聚类方法的弊端。例如AE[1]、DEC[2]和DCN[3]等方法均采用了自编码网络,文献[4]则最大化特征间的互信息,JULE[5]基于输出特征的凝聚聚类指导深度卷积神经网络训练,深度自适应图像聚类DAC[6]则通过特征间的余弦相似度构建正负样本对指导网络训练。
然而以上方法仍未考虑到以下几个方面的信息:首先,基于自编码中的重构项或者最大化特征间的互信息方法学到的特征表示缺乏判别性;其次,传统的聚类方法,例如K-means,可以有效地利用数据中的类别假设,而DAC[6]则仅仅考虑了样本间的相关性;另外,除去样本间相关性外,仍然有其他的信息可以用来学习更好的特征表示。
针对以上问题,如图1所示,我们提出了一种新颖的深度综合相关性挖掘算法来综合考虑样本间的相关性(红线所示)、通过几何变换构造的多视角预测一致性(黄线所示)、同一样本不同层特征之间的相关性(蓝线所示)以及它们之间的相互关联(绿线所示)来指导网络训练。
02
网络结构与基本思想
如图2 所示,我们的基于综合相关性探究的深度聚类网络分为三个部分:输入层多视角图像的构建、基于卷积神经网络的骨干网络提取特征和多种损失函数组成的监督信息。损失函数主要包括四个组成部分:伪图(Pseudo-graph)损失、伪标签损失、多视角一致性损失以及基于三元组的互信息损失。
具体地,将多视角图像输入到深度卷积神经网络中得到预测特征。在合理的约束和假设下,学习得到的预测特征将具有独热(one-hot)性,然后我们计算特征间的相似度并构建相似图。基于计算得到的相似图和预测特征,我们通过设定高阈值来计算得到高置信度的伪图和伪标签来指导网络的学习。其次,对于多视角一致性,我们通过施加几何变换或者小的扰动构造多视角样本,基于局部鲁棒性的假设,这些多视角样本应该具有一致的特征输出,故而可以用原样本的特征及信息来约束其他视角样本对应的信息。另外,对于深度网络不同层的特征,它们之间应该具有很高的相关性,所以我们最大化同一样本深层特征和浅层特征之间的互信息。为了学习更具判别性的特征,我们基于伪图构建三元组来探究相关性。最后我们将以上多个不同方面的损失函数结合到一起,通过端到端的方式探究多种相关性以及指导网络训练。
03
具体实现及优化训练
(1)伪图监督
记为标签缺失的数据集,其中为第i张图片,N为图片的总个数,记K为总类别个数。对于输入图片,用表示深度卷积神经网络softmax层之后的特征输出,同时将深度网络从输入图片到输出特征的映射记为 ,其参数对应为 ,即特征满足如下约束:
基于深度卷积神经网络输出的特征z,第i个和第j个样本之间的余弦相似度可由计算得到,其中·表示两个向量之间的点积。我们通过设置一个高阈值选取高置信度的样本对构建伪图:
如果两个样本之间的相似度高于阈值,则判定这两个样本属于同一类(即),并且这两个样本之间的相似度将被最大化;否则将判断两个样本类别不同(即),对应样本间的相似度将被最小化。基于以上高置信度的样本对,我们可以定义如下伪图的监督损失函数:
其中为计算距离的损失函数,其常见的表达形式包括欧氏距离和二值交叉熵等。
(2)伪标签监督
伪图监督信息仅局限于样本对之间的相互关系探究并且相互关系不具备传导性。针对此问题,本文进而提出了一种伪标签监督信息来探究样本特征中所包含的类别信息。
首先伪图中样本间的二值关系不具备传导性,即和给定后,并不能随之确定,此问题将导致网络训练不稳定。我们发现对于带权重的完全图,如果其每条边的权重均不相同,则存在一个阈值使得此图具有K分割。如果伪图监督达到最优解,那么根据K分割,预测特征将具有独热性质。这样我们就可以通过如下公式计算伪标签:
其中表示预测特征向量中的第K个元素,其对应的伪标签预测概率。在实际求解过程中,由于非凸特性,预测特征并不能严格满足独热性质。故而我们针对伪标签的概率值同样设置了一个高的阈值来选择高置信度的伪标签作为监督信息:
表明预测的伪标签是高度置信的,并且只有在这种情况下第i个样本对应的伪标签才作为监督信息对网络进行训练。进而我们可以定义如下伪标签监督损失函数:
其中为交叉熵损失函数。
(3)多视角一致性监督
其中为欧氏距离来约束不同视角下预测特征之间的距离。通过多视角构建的正样本对可以在使网络训练更加稳定的同时提高性能。
其中为变换得到的其他视角下的数据集,W 和 V 则与原视角计算得到的相一致。
多视角一致性的学习策略对于无监督深度聚类有着非常重要的作用和意义。原视角计算得到的伪图和伪标签均为高置信度的,故而单独对原视角进行优化,梯度的幅值将相对较小,单一视角对网络的训练起到的贡献较小。通过以上多视角一致性策略,其他视角对应的输出预测将不再简单,故而对网络的学习起到更加重要的作用,同时网络对输入图片噪声的稳定性也大大增强。
(4)基于三元组的互信息探究
对于同一张图片的深层特征表示和浅层特征表示,它们之间的互信息应该最大化。与文献[8]一样,我们首先将两个随机变量(D 和 S)之间的互信息转变为样本特征之间联合分布或边缘分布直积M的 Jensen-Shannon 散度。对应地,对于不同层的特征表示,只有当它们对应属于同一个样本的不同视角特征时,它们服从联合分布;否则,对于不同样本所对应的不同层的特征表示,它们服从边缘直积分布。这样基于Jensen-Shannon 散度定义的互信息可以定义为:
其中d对应为深层特征,s对应浅层特征,T为判别器以用于判别特征d和s服从联合分布还是边缘直积分布。为softplus函数。对于判别器的实现,文献[4]表明探究输入特征和输入图像的局部信息之间的相关性可以提高特征的表示能力,我们同样采用了此种方式。
需要注意的是在以上基于样本的特征互信息最大化过程中,并没有引入类别信息,导致深度网络所学习得到的特征不具判别性。进而我们引入了基于三元组(triplet)的互信息,如图3所示。基于伪图,我们对每一个样本构造其正样本对和负样本对并记为三元组,最大化同类样本对应特征之间的互信息,最小化异类样本对应特征之间的互信息来训练判别器,进而学习更具判别性的特征。此策略将样本级别的互信息监督提升到了三元组级别的互信息探究。对应的损失函数为:
图3 基于伪图监督的三元组互信息损失
(5)网络多分支联合优化训练
针对深度学习图像聚类任务,我们探究了四种不同的关系,包括样本间高置信度伪图、伪标签监督信息、多视角样本预测一致性和多视角特征互信息最大化。将以上四部分对应的损失函数整合到一起,我们得到了最终的基于深度综合相关性挖掘(DCCM)的无监督聚类模型,其目标函数可以表达为:
其中和均为常数来平衡不同优化项的贡献。基于此联合损失函数,我们的算法可以非常高效地基于批数据进行端到端的训练。
04
实验验证
本文所提出的算法(DCCM)一方面可以直接输出聚类的标签,另一方面可以学习得到判别性的特征以用于其他任务,例如分类等。我们利用图像聚类和特征分类两项任务来验证算法的有效性。具体网络及参数设置请参见论文。
我们首先在六个非常难的图像数据集上进行图像聚类实验,包括CIFAR-10、CIFAR-100、STL-10、Imagenet-10、ImageNet-dog-15和Tiny-ImageNet等数据集。我们采用了三种常用的聚类结果评价指标,包括归一化的互信息(NMI)、聚类准确率(ACC)和调整兰德指数(ARI)。具体结果如表1所示,我们可以看出,在六个数据集上三个不同评测指标下,所提出的DCCM均显著超过了其他对比方法。即便是与当前最优异的DAC算法相比, 我们的结果也有明显的提升。以聚类准确率(ACC) 为例,在CIFAR-10数据集上,我们的结果0.623比DAC的结果0.522高10.1%。
表1:在六个真实图像数据集上的聚类性能对比(最好的结果用黑体显示)
其次,为了进一步验证特征表示的质量,我们在CIFAR-10和CIFAR-100两个数据集上采用了分类任务,并将DCCM的性能与其他无监督特征学习方法进行了比较。在图4中我们比较了不同算法的非线性分类结果。我们同样可以看出DCCM在两个数据集上均实现了比其他方法更高的实验结果。尤其是在CIFAR-10 数据集上,我们的方法基于卷积和全连接层的特征均比当前最优的DIM方法高出了8.0%以上。主要原因为我们基于伪graph将原来基于样本的互信息提升至了基于三元组的互信息探究,这样更利于学习具有判别性的特征,从而带来明显的效果提升。
图4 在 CIFAR-10 和 CIFAR-100 数据集上基于特征表示非线性分类的准确率比较。
其中‘Conv’表示最后一个卷积层后的特征,‘Y(64)’表示64维的全连接层特征。
05
总结
针对图像聚类任务,本文提出了一种深度综合相关性挖掘的算法。除去探究样本之间成对的相关性,我们提出了伪标签的监督信息来探究类别信息,有助于学习更具判别性的特征;其次,我们通过对观测空间的图像施加变换或扰动来构建多视角的样本并假设其应具有相同的预测标签,基于以上多视角样本预测一致性对输出特征进行约束;另外,我们探究了同一个输入样本在深度网络不同层的特征之间的相互关系,并引入样本间的图关系来构造三元组以学习得到更具判别性的特征。在多个具有挑战性的大型数据集上的实验验证了本文方法的有效性。
相关论文:
[1] Yoshua Bengio, Pascal Lamblin, Dan Popovici et al. “Greedy layer-wise training of deep networks”. In: Proceedings of the Advances in Neural Information Processing Systems, 2007
[2] Junyuan Xie, Ross Girshick and Ali Farhadi. “Unsupervised deep embedding for clustering analysis”. In: Proceedings of the International Conference on Machine Learning, 2016
[3] Bo Yang, Xiao Fu, Nicholas D Sidiropoulos et al. “Towards K-means-friendly spaces: simultaneous deep learning and clustering”. In: Proceedings of the International Conference on Machine Learning, 2017
[4] R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon et al. “Learning deep representations by mutual information estimation and maximization”. In: Proceedings of the International Conference on Learning Representations, 2019
[5] Jianwei Yang, Devi Parikh and Dhruv Batra. “Joint unsupervised learning of deep representations and image clusters”. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016
[6] Jianlong Chang, Lingfeng Wang, Gaofeng Meng et al. “Deep adaptive image clustering”. In: Proceedings of the IEEE International Conference on Computer Vision, 2017
[7] Y. Duan, W. Zheng, X. Lin et al. “Deep adversarial metric learning”. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018
[8] Sebastian Nowozin, Botond Cseke and Ryota Tomioka. “F-GAN: Training generative neural samplers using variational divergence minimization”. In: Proceedings of the Advances in Neural Information Processing Systems, 2016
[9] Jianlong Wu, Keyu Long, Fei Wang, Chen Qian, Cheng Li, Zhouchen Lin, Hongbin Zha. “Deep comprehensive correlation mining for image clustering”. In: Proceedings of the International Conference on Computer Vision, 2019