极端低分辨率场景下的图像识别方案

vlambda
2020-11-07

极端低分辨率场景下的图像识别方案

前言

低分辨率/低质量图像信息丢失严重，基于低质量数据集训练的模型往往不能达到预期效果。此外，若模型是基于高分辨率（High Resolution, HR）图像进行训练的，而真实业务场景中的数据来源质量非常低，高分辨率与低分辨率（Low Resolution, LR）数据之间存在着 domain mismatch 的问题，效果也会大打折扣。下面总结了一些处理低分辨率/低质量图像识别的常见思路。

方案

控制上传图像质量；若图像来源可控，即可通过某种反馈机制让用户输入较高清图像，则直接用图像质量评估模型 reject 掉 low-res/low-quality images 即可（回归图像的 mean opinion score，或直接做 binary classification 均可）。例如京东/淘宝的图搜要求上传图片不得小于 200px（PS：从业务场景出发，选择成本最低的可行性方案，永远是工业界最适合方案，而不是折腾 fancy 的模型），实用指数：★★★★★
Mix-size training；即混合 LR 与 HR 图像训练，使得模型能够学习到对 low-res/low-quality 场景下更有效的信息，常见操作方法有以下几种，实用指数：★★★★

若原图大小为 $w\times h$ ，先 downsample 到 $\lfloor \frac{w}{s} \rfloor\times \lfloor \frac{h}{s} \rfloor$ 大小，然后再 resize 回原图大小，再混合训练
构建 image pyramid 来使得模型对 multi-scale 信息感知更友好
模型层面做改进来使得对 multi-scale 信息感知更友好：例如类似 FPN/Res2Net/SKNet/Inception 结构等等

Knowledge Distillation；即先用 HR images 训练 teacher model，再基于 LR images 训练 student model，常见的 KD 算法均可（基于logits也好，基于 hints 也好）...然后固定teacher model的权重，分别提取HR与LR的特征，以 $L_2$ loss 作为KD loss，来使得来自不同 domain（LR VS HR）的 feature 能够更接近，整体的 loss 为 Cross Entropy 与 $L_2$ loss 的加权。实用指数：★★★★
Super-resolution/Image Deblurring 做预处理；即先人工构造 HR-LR image pairs，训练超分模型。识别时，先过一个超分/去模糊模型，再过分类，听起来似乎 work，但维护成本高，且识别模型精度依赖于超分/去模糊模型的输出，且无法保证超分/去模糊模型输出的信息是否对分类任务是有帮助的。实用指数：★★

Reference

Zhu M, Han K, Zhang C, et al. Low-resolution Visual Recognition via Deep Feature Distillation[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 3762-3766.
Lu Z, Jiang X, Kot A. Deep coupled resnet for low-resolution face recognition[J]. IEEE Signal Processing Letters, 2018, 25(4): 526-530.
Wang Z, Chang S, Yang Y, et al. Studying very low resolution recognition using deep networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4792-4800.