基于深度综合相关性挖掘的图像聚类算法

vlambda
2020-04-06

基于深度综合相关性挖掘的图像聚类算法

本文Deep Comprehensive Correlation Mining for Image Clustering近期被计算机视觉顶级会议International Conference on Computer Vision (ICCV 2019) 接收，代码将发布于https://github.com/Cory-M/DCCM。

引言

聚类是计算机视觉中的一项重要的研究课题。随着互联网的发展，我们每天都可以收集大量的未标注的图像，而人工标注将耗费大量的财力物力。为了充分利用这些未标注的数据，无监督聚类近期受到研究者的广泛关注，其通过探究样本间的特征相关性，基于一些相似性准则将数据分为不同的类别。

对于自然图像，即便它们属于相同的类别，仍会表现出不同的形状、颜色和姿态等，故图像聚类是一项很有挑战性的任务。传统的聚类方法，例如K-means、谱聚类和子空间聚类等，在此任务上均不能表现出很好的性能。其原因主要有两个：首先，传统的聚类方法是基于传统的手工特征提取方法的，而这些特征的表示能力有限，不能根据数据的分布来动态调整特征的表示，例如对于固定的图片，其提取的SIFT、HOG等传统手工特征是固定不变的，这就限制了其在大规模数据集上的表达能力；其次，在传统的聚类方法中，特征提取和聚类算法是两个分离的过程，故而得到的聚类结果是次优的。针对以上传统聚类方法存在的问题，鉴于深度学习强大的特征表示能力，基于深度学习的聚类算法受到大家广泛的关注，此类方法将深度学习与传统聚类方法进行融合，很好地解决了以上传统聚类方法的弊端。例如AE[1]、DEC[2]和DCN[3]等方法均采用了自编码网络，文献[4]则最大化特征间的互信息，JULE[5]基于输出特征的凝聚聚类指导深度卷积神经网络训练，深度自适应图像聚类DAC[6]则通过特征间的余弦相似度构建正负样本对指导网络训练。

然而以上方法仍未考虑到以下几个方面的信息：首先，基于自编码中的重构项或者最大化特征间的互信息方法学到的特征表示缺乏判别性；其次，传统的聚类方法，例如K-means，可以有效地利用数据中的类别假设，而DAC[6]则仅仅考虑了样本间的相关性；另外，除去样本间相关性外，仍然有其他的信息可以用来学习更好的特征表示。

针对以上问题，如图1所示，我们提出了一种新颖的深度综合相关性挖掘算法来综合考虑样本间的相关性（红线所示）、通过几何变换构造的多视角预测一致性（黄线所示）、同一样本不同层特征之间的相关性（蓝线所示）以及它们之间的相互关联（绿线所示）来指导网络训练。

图1 多种相关性探究示意图

网络结构与基本思想

如图2 所示，我们的基于综合相关性探究的深度聚类网络分为三个部分：输入层多视角图像的构建、基于卷积神经网络的骨干网络提取特征和多种损失函数组成的监督信息。损失函数主要包括四个组成部分：伪图（Pseudo-graph）损失、伪标签损失、多视角一致性损失以及基于三元组的互信息损失。

图2 深度综合相关性挖掘算法示意图

具体地，将多视角图像输入到深度卷积神经网络中得到预测特征。在合理的约束和假设下，学习得到的预测特征将具有独热（one-hot）性，然后我们计算特征间的相似度并构建相似图。基于计算得到的相似图和预测特征，我们通过设定高阈值来计算得到高置信度的伪图和伪标签来指导网络的学习。其次，对于多视角一致性，我们通过施加几何变换或者小的扰动构造多视角样本，基于局部鲁棒性的假设，这些多视角样本应该具有一致的特征输出，故而可以用原样本的特征及信息来约束其他视角样本对应的信息。另外，对于深度网络不同层的特征，它们之间应该具有很高的相关性，所以我们最大化同一样本深层特征和浅层特征之间的互信息。为了学习更具判别性的特征，我们基于伪图构建三元组来探究相关性。最后我们将以上多个不同方面的损失函数结合到一起，通过端到端的方式探究多种相关性以及指导网络训练。

具体实现及优化训练

（1）伪图监督

记基于深度综合相关性挖掘的图像聚类算法为标签缺失的数据集，其中为第i张图片，N为图片的总个数，记K为总类别个数。对于输入图片，用表示深度卷积神经网络softmax层之后的特征输出，同时将深度网络从输入图片到输出特征的映射记为基于深度综合相关性挖掘的图像聚类算法，其参数对应为，即特征满足如下约束：

基于深度卷积神经网络输出的特征z，第i个和第j个样本之间的余弦相似度基于深度综合相关性挖掘的图像聚类算法可由计算得到，其中·表示两个向量之间的点积。我们通过设置一个高阈值选取高置信度的样本对构建伪图：

如果两个样本之间的相似度高于阈值，则判定这两个样本属于同一类（即基于深度综合相关性挖掘的图像聚类算法），并且这两个样本之间的相似度将被最大化；否则将判断两个样本类别不同（即），对应样本间的相似度将被最小化。基于以上高置信度的样本对，我们可以定义如下伪图的监督损失函数:

其中基于深度综合相关性挖掘的图像聚类算法为计算距离的损失函数，其常见的表达形式包括欧氏距离和二值交叉熵等。

（2）伪标签监督

伪图监督信息仅局限于样本对之间的相互关系探究并且相互关系不具备传导性。针对此问题，本文进而提出了一种伪标签监督信息来探究样本特征中所包含的类别信息。

首先伪图中样本间的二值关系不具备传导性，即基于深度综合相关性挖掘的图像聚类算法和给定后，并不能随之确定，此问题将导致网络训练不稳定。我们发现对于带权重的完全图，如果其每条边的权重均不相同，则存在一个阈值使得此图具有K分割。如果伪图监督达到最优解，那么根据K分割，预测特征将具有独热性质。这样我们就可以通过如下公式计算伪标签：

其中基于深度综合相关性挖掘的图像聚类算法表示预测特征向量中的第K个元素，其对应的伪标签预测概率。在实际求解过程中，由于非凸特性，预测特征并不能严格满足独热性质。故而我们针对伪标签的概率值同样设置了一个高的阈值基于深度综合相关性挖掘的图像聚类算法来选择高置信度的伪标签作为监督信息:

基于深度综合相关性挖掘的图像聚类算法表明预测的伪标签是高度置信的，并且只有在这种情况下第i个样本对应的伪标签才作为监督信息对网络进行训练。进而我们可以定义如下伪标签监督损失函数：

其中基于深度综合相关性挖掘的图像聚类算法为交叉熵损失函数。

（3）多视角一致性监督

在上述基于伪图和伪标签的方法中，我们通过设定高阈值来选择高置信度的样本对网络进行训练，而根据文献[7]，这种高阈值选定的简单样本和样本对的贡献是有限的，此问题可通过多视角一致性解决。假定如果两张图片在观测空间是相似的，那么它们应该具有相同的标签。因此我们基于原始图片构造多视角的图片，基于预测特征、标签一致性对网络进行监督训练。具体而言，我们在观测图片x上通过施加相关仿射变换、添加小幅度扰动等操作来构建多视角图像基于深度综合相关性挖掘的图像聚类算法

，其中G为对应的仿射变换或扰动算子。我们希望扰动之后的其他视角的图片与原图片在预测特征上具有一致性，即基于深度综合相关性挖掘的图像聚类算法

。因此我们就可以构造如下多视角特征一致性的监督损失函数:

其中基于深度综合相关性挖掘的图像聚类算法为欧氏距离来约束不同视角下预测特征之间的距离。通过多视角构建的正样本对可以在使网络训练更加稳定的同时提高性能。

请注意对于原始样本，我们计算伪图和伪标签作为监督信息。故而为了更好地利用标签一致性信息以及探究不同视角样本间的相关性，我们希望在其他视角下所计算得到的伪图和标签信息均与原始视角对应的相关信息相一致，而不是简单地最小化多视角输出特征之间的距离。具体而言，一方面，给定一张具有高置信度伪标签基于深度综合相关性挖掘的图像聚类算法

的图片

，我们希望其他视角下的样本基于深度综合相关性挖掘的图像聚类算法

具有相同的伪标签。另一方面，我们同样探究了在其他视角下样本基于深度综合相关性挖掘的图像聚类算法

之间的相关性，即用原视角样本计算得到的伪图作为监督信息对其他视角下计算得到的图信息进行约束。通过以上两方面的多视角一致性信息的探究和约束，提高网络的鲁棒性。多视角一致性信息探究的目标函数可以归结为：

其中基于深度综合相关性挖掘的图像聚类算法为变换得到的其他视角下的数据集，W 和 V 则与原视角计算得到的相一致。

多视角一致性的学习策略对于无监督深度聚类有着非常重要的作用和意义。原视角计算得到的伪图和伪标签均为高置信度的，故而单独对原视角进行优化，梯度的幅值将相对较小，单一视角对网络的训练起到的贡献较小。通过以上多视角一致性策略，其他视角对应的输出预测将不再简单，故而对网络的学习起到更加重要的作用，同时网络对输入图片噪声的稳定性也大大增强。

（4）基于三元组的互信息探究

对于同一张图片的深层特征表示和浅层特征表示，它们之间的互信息应该最大化。与文献[8]一样，我们首先将两个随机变量（D 和 S）之间的互信息转变为样本特征之间联合分布或边缘分布直积M的 Jensen-Shannon 散度。对应地，对于不同层的特征表示，只有当它们对应属于同一个样本的不同视角特征时，它们服从联合分布；否则，对于不同样本所对应的不同层的特征表示，它们服从边缘直积分布。这样基于Jensen-Shannon 散度定义的互信息可以定义为：

其中d对应为深层特征，s对应浅层特征，T为判别器以用于判别特征d和s服从联合分布还是边缘直积分布。为softplus函数。对于判别器的实现，文献[4]表明探究输入特征和输入图像的局部信息之间的相关性可以提高特征的表示能力，我们同样采用了此种方式。

需要注意的是在以上基于样本的特征互信息最大化过程中，并没有引入类别信息，导致深度网络所学习得到的特征不具判别性。进而我们引入了基于三元组（triplet）的互信息，如图3所示。基于伪图，我们对每一个样本构造其正样本对和负样本对并记为三元组，最大化同类样本对应特征之间的互信息，最小化异类样本对应特征之间的互信息来训练判别器，进而学习更具判别性的特征。此策略将样本级别的互信息监督提升到了三元组级别的互信息探究。对应的损失函数为：

其中的set即为构建的三元组中的同类或异类样本对。

图3 基于伪图监督的三元组互信息损失

（5）网络多分支联合优化训练

针对深度学习图像聚类任务，我们探究了四种不同的关系，包括样本间高置信度伪图、伪标签监督信息、多视角样本预测一致性和多视角特征互信息最大化。将以上四部分对应的损失函数整合到一起，我们得到了最终的基于深度综合相关性挖掘（DCCM）的无监督聚类模型，其目标函数可以表达为：

其中基于深度综合相关性挖掘的图像聚类算法和均为常数来平衡不同优化项的贡献。基于此联合损失函数，我们的算法可以非常高效地基于批数据进行端到端的训练。

实验验证

本文所提出的算法（DCCM）一方面可以直接输出聚类的标签，另一方面可以学习得到判别性的特征以用于其他任务，例如分类等。我们利用图像聚类和特征分类两项任务来验证算法的有效性。具体网络及参数设置请参见论文。

我们首先在六个非常难的图像数据集上进行图像聚类实验，包括CIFAR-10、CIFAR-100、STL-10、Imagenet-10、ImageNet-dog-15和Tiny-ImageNet等数据集。我们采用了三种常用的聚类结果评价指标，包括归一化的互信息（NMI）、聚类准确率（ACC）和调整兰德指数（ARI)。具体结果如表1所示，我们可以看出，在六个数据集上三个不同评测指标下，所提出的DCCM均显著超过了其他对比方法。即便是与当前最优异的DAC算法相比，我们的结果也有明显的提升。以聚类准确率（ACC) 为例，在CIFAR-10数据集上，我们的结果0.623比DAC的结果0.522高10.1%。

表1：在六个真实图像数据集上的聚类性能对比（最好的结果用黑体显示）

其次，为了进一步验证特征表示的质量，我们在CIFAR-10和CIFAR-100两个数据集上采用了分类任务，并将DCCM的性能与其他无监督特征学习方法进行了比较。在图4中我们比较了不同算法的非线性分类结果。我们同样可以看出DCCM在两个数据集上均实现了比其他方法更高的实验结果。尤其是在CIFAR-10 数据集上，我们的方法基于卷积和全连接层的特征均比当前最优的DIM方法高出了8.0%以上。主要原因为我们基于伪graph将原来基于样本的互信息提升至了基于三元组的互信息探究，这样更利于学习具有判别性的特征，从而带来明显的效果提升。

图4 在 CIFAR-10 和 CIFAR-100 数据集上基于特征表示非线性分类的准确率比较。

其中‘Conv’表示最后一个卷积层后的特征，‘Y(64)’表示64维的全连接层特征。

总结

针对图像聚类任务，本文提出了一种深度综合相关性挖掘的算法。除去探究样本之间成对的相关性，我们提出了伪标签的监督信息来探究类别信息，有助于学习更具判别性的特征；其次，我们通过对观测空间的图像施加变换或扰动来构建多视角的样本并假设其应具有相同的预测标签，基于以上多视角样本预测一致性对输出特征进行约束；另外，我们探究了同一个输入样本在深度网络不同层的特征之间的相互关系，并引入样本间的图关系来构造三元组以学习得到更具判别性的特征。在多个具有挑战性的大型数据集上的实验验证了本文方法的有效性。

vlambda博客
学习文章列表