vlambda博客
学习文章列表

极端低分辨率场景下的图像识别方案

前言

低分辨率/低质量 图像信息丢失严重,基于低质量数据集训练的模型往往不能达到预期效果。此外,若模型是基于高分辨率(High Resolution, HR)图像进行训练的,而真实业务场景中的数据来源质量非常低,高分辨率与低分辨率(Low Resolution, LR)数据之间存在着 domain mismatch 的问题,效果也会大打折扣。下面总结了一些处理 低分辨率/低质量 图像识别的常见思路。


方案

  1. 控制上传图像质量;若图像来源可控,即可通过某种反馈机制让用户输入较高清图像,则直接用图像质量评估模型 reject 掉 low-res/low-quality images 即可(回归图像的 mean opinion score,或直接做 binary classification 均可)。例如京东/淘宝的图搜要求上传图片不得小于 200px(PS:从业务场景出发,选择成本最低的可行性方案,永远是工业界最适合方案,而不是折腾 fancy 的模型),实用指数:★★★★★

  2. Mix-size training;即混合 LR 与 HR 图像训练,使得模型能够学习到对 low-res/low-quality 场景下更有效的信息,常见操作方法有以下几种,实用指数:★★★★

    1. 若原图大小为   ,先 downsample 到     大小,然后再 resize 回原图大小,再混合训练

    2. 构建 image pyramid 来使得模型对 multi-scale 信息感知更友好

    3. 模型层面做改进来使得对 multi-scale 信息感知更友好:例如类似 FPN/Res2Net/SKNet/Inception 结构等等

  3. Knowledge Distillation;即先用 HR images 训练 teacher model,再基于 LR images 训练 student model,常见的 KD 算法均可(基于logits也好,基于 hints 也好)...然后固定teacher model的权重,分别提取HR与LR的特征,以     loss 作为KD loss,来使得来自不同 domain(LR VS HR)的 feature 能够更接近,整体的 loss 为 Cross Entropy 与     loss 的加权。实用指数:★★★★

  4. Super-resolution/Image Deblurring 做预处理;即先人工构造 HR-LR image pairs,训练超分模型。识别时,先过一个 超分/去模糊 模型,再过分类,听起来似乎 work,但维护成本高,且识别模型精度依赖于 超分/去模糊 模型的输出,且无法保证 超分/去模糊 模型输出的信息是否对分类任务是有帮助的。实用指数:★★


Reference

  1. Zhu M, Han K, Zhang C, et al. Low-resolution Visual Recognition via Deep Feature Distillation[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 3762-3766.

  2. Lu Z, Jiang X, Kot A. Deep coupled resnet for low-resolution face recognition[J]. IEEE Signal Processing Letters, 2018, 25(4): 526-530.

  3. Wang Z, Chang S, Yang Y, et al. Studying very low resolution recognition using deep networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4792-4800.