vlambda博客
学习文章列表

图像识别所需要的知识储备

图像学习所需要的知识储备(知识要点)

写这个小结的目的是对这篇博士大论文做一个总结,明白该方向到底可以和需要学习写什么内容,以此作为一个学习的导向!!加油儿,加油儿!

该论文的研究背景及意义总结

    随着可用训练数据的积累与图形处理器并行计算性能的进步,使得通过基于统计学归纳偏置的机器学习算法有了广阔的用武之地。

    深度神经网络继而在物体识别、物体定位等领域大大超越了传统手工特征提取方法、并使得相关应用达到商业化水平。

    生物特征识别——硬生物特征识别,软生物特征识别,它是计算机视觉领域的研究热点。

    它这篇论文的创新点,即可取的方法有——控制引入对不相关属性的不变性先验知识,使得提取出的针对识别任务的特征有更好的可辨别性和泛化能力;使用自适应深度度量学习,以及对抗训练两种方法用以解构信息;使用深度增强学习算法用于基于图片集的人脸身份识别系统。


人脸识别技术的发展

    早期研究采用全局特征对人脸进行描述,例如,使用无监督的主成分分析,或有监督的线性区分分析(LDA)。

    但是考虑到局部特征在应对光照与表情等变化时有更好的鲁棒性,出现了使用局部特征的方法——局部二值模型,Gabor算子,Haar算子,方向梯度直方图(HOG),尺度不变特征变化(SIFT)等局部特征模型。

    在稀疏表示和协同表示中,若特征足够大,甚至连随机提取的特征都能提供足够的信息量。那么就大大降低了对特征提取的要求了。

以上方法普遍适用于人脸身份和人脸表情识别等多任务。考虑到表情变化时主要使用一下方法——主动形状模型(ASM),使用多个特征点的相对位置构成向量序列;主动外观模型(AAM),在ASM基础上对全局的形状特征和局部的纹理特征相结合进行综合分析。

基于深度学习的人脸识别总结

人脸识别的步骤

    首先,进行面对检测,定位图像或视频中人脸的位置,然后进行截图;随后,使用面部标志检测进行面部配准;最后,使用人脸身份识别模块。

    一些框架——AlexNet,VGGNet,ResNet,ResNet等。一些损失函数——基于softmax的one-hot损失函数,交叉熵损失。(还有度量学习,交叉熵损失与度量学习损失项集合)

基于CNN的人脸表情识别

    分为三步,人脸检测,配准以及识别。识别阶段又可分为两阶段,特征提取,分类。基于区域的卷积神经网络(R-CNN)和Faster R-CNN被用于生成高质量区域提议来识别面部表情。

深度自编码(DAE)

    用于学习有效的降维编码;去噪自编码机用于部分损坏的数据来恢复原始的未失真输入;卷积自动编码器使用卷积层代替全连接的隐含层变分自动编码器,这个有向图形模型用于设计具有分布先验知识的生成模型。

网络输入

    通常使用的是RGB或灰度图像,但是这些原始数据可能缺乏或未能强调某些重要信息。手工特征提取可以缓解此问题;CNN的低级表示编码;LBP特征,用于对照明不变;SIFT对图像缩放和旋转具有鲁棒性;

网络集成
  • 足够的网络多样性

  • 可以有效聚合多个网络的适当集成方法。 集成算法可以用在两个地方——特征层级和决策层级。

    递归神经网络(RNN),捕获时序信息的连接模型; 反向时间传播(BPTT),训练RNN 长短期记忆(LSTM)。