极端低分辨率场景下的图像识别方案
前言
低分辨率/低质量 图像信息丢失严重,基于低质量数据集训练的模型往往不能达到预期效果。此外,若模型是基于高分辨率(High Resolution, HR)图像进行训练的,而真实业务场景中的数据来源质量非常低,高分辨率与低分辨率(Low Resolution, LR)数据之间存在着 domain mismatch 的问题,效果也会大打折扣。下面总结了一些处理 低分辨率/低质量 图像识别的常见思路。
方案
控制上传图像质量;若图像来源可控,即可通过某种反馈机制让用户输入较高清图像,则直接用图像质量评估模型 reject 掉 low-res/low-quality images 即可(回归图像的 mean opinion score,或直接做 binary classification 均可)。例如京东/淘宝的图搜要求上传图片不得小于 200px(PS:从业务场景出发,选择成本最低的可行性方案,永远是工业界最适合方案,而不是折腾 fancy 的模型),实用指数:★★★★★
Mix-size training;即混合 LR 与 HR 图像训练,使得模型能够学习到对 low-res/low-quality 场景下更有效的信息,常见操作方法有以下几种,实用指数:★★★★
若原图大小为
构建 image pyramid 来使得模型对 multi-scale 信息感知更友好
模型层面做改进来使得对 multi-scale 信息感知更友好:例如类似 FPN/Res2Net/SKNet/Inception 结构等等
Knowledge Distillation;即先用 HR images 训练 teacher model,再基于 LR images 训练 student model,常见的 KD 算法均可(基于logits也好,基于 hints 也好)...然后固定teacher model的权重,分别提取HR与LR的特征,以
Super-resolution/Image Deblurring 做预处理;即先人工构造 HR-LR image pairs,训练超分模型。识别时,先过一个 超分/去模糊 模型,再过分类,听起来似乎 work,但维护成本高,且识别模型精度依赖于 超分/去模糊 模型的输出,且无法保证 超分/去模糊 模型输出的信息是否对分类任务是有帮助的。实用指数:★★
Reference
Zhu M, Han K, Zhang C, et al. Low-resolution Visual Recognition via Deep Feature Distillation[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 3762-3766.
Lu Z, Jiang X, Kot A. Deep coupled resnet for low-resolution face recognition[J]. IEEE Signal Processing Letters, 2018, 25(4): 526-530.
Wang Z, Chang S, Yang Y, et al. Studying very low resolution recognition using deep networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4792-4800.