vlambda博客
学习文章列表

​图像识别是否还有继续研究的价值?

学习了图像分类检测技术后,笔者认为在众多人工智能API技术里,图像识别技术不是很值得再去深入研究学习。

 

问题1:图像识别的算法可以替代人类?

 

电脑识别依靠的是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为模板,拿它来检验所要识别的图像。如果能找到一个相似点,这个图像也就被识别了,一些不规则的,但某些方面与模板相似的图像也同样能够被识别。而获得这些图像的相似性,就需要上传对应图库,电脑通过对大数量的图库进行训练学习,从而获得对应模板。

 

计算机目前已经能够做到非常出色的视觉识别,它们有时候在一系列图像中识别某个物体的能力已经跟人类差不多。但是,类似的最终结果是否意味着计算机能够模拟人类的视觉系统呢?事实上,电脑系统在某些领域上还是比不上人类的。

 

就比如笔者做的一个图像分类检测小程序——有兴趣的朋友可以前往文末左侧“阅读原文”(Read more)里研究。


该程序使用了一些比较基本的图像识别技术——即上传图库训练图库,识别过程中也同样出现了图像识别技术的通病。下面是运行结果的三个范例。

 

▲判断图为剪刀,可能性99%(右下角)


​图像识别是否还有继续研究的价值?

▲判断图为剪刀,可能性58.4%(右下角)

 

​图像识别是否还有继续研究的价值?

判断图为叉子,可能性43%(右下角)


除了第一张剪刀图的识别率接近100,后面两张剪刀图就不是那么乐观,识别准确率低甚至还有识别错误的情况,后者的图像是不标准的剪刀图,若要精确识别此类不标准图像,就需要大量图库来训练。所以该类应用程序的识别准确性很依赖于图库的数量和质量。

 

问题2:图库的数量真的是应有尽有吗?

 

 

​图像识别是否还有继续研究的价值?

https://www.kaggle.com/datasets 上关于剪刀的数据集


我们会发现,关于scissors的数据集少之又少甚至没有。这样就很难让电脑学习到足够多的图库。


​图像识别是否还有继续研究的价值?

http://image-net.org/index上关于剪刀的数据集


发现也就只有两个数据集。虽然关于scissors的散装图片很多,但像这种图库集资源却很少,这还是对于常见的剪刀,可以想象一些罕见样本图集的稀少。

问题3:图库内容的真实性如何确保?


相信大家早已听说,现在的电脑已经能够完美的制造出图像,以至于我们不得不去怀疑图库照片的真实度。电脑学习的是样本的多样性,如果图库的照片是电脑虚构的,那么再拿去给电脑训练的意义不是很大。


比如 Thispersondoesnotexist.com 上每次刷新就会出现一张新的合成人脸图片,当然这些人脸的背后都没有真实的人:


​图像识别是否还有继续研究的价值?

▲上面这位女郎其实不存在,Imagined by a GAN (generative adversarial network) StyleGAN2 (Dec 2019) - Karras et al. and Nvidia


▲你猜那张是真实的人脸?答案是一张也没有


问题4:图片的质量能否满足图像识别的需求?

 

图片质量会影响图像识别算法的工作效果。如果你需要从50个人中识别出某人,并且只给了很小的样本量来训练,再加上与低分辨率,低劣照明条件等问题,识别难度就会突然成倍增加。部分应用获取数据途径是扫描视频,其图像质量非常低。即使是高清视频,最多也不过是1080p。通常是720p。这些值分别相当于约2MP和0.9MP,而一般的数码相机就达到15MP,识别差异就非常明显。

 

还有许多异常排列,遮挡,恶劣的光照条件,不同的姿势和不同比例物体的图像。就算电脑知道场景中存在什么对象,也不意味着它知道场景中正在发生什么。例如,卡车后方的小心停车标志与道路交叉口的禁止停车标志在语义上有很大不同。电脑识别也不能带来它真正的含义。

 

一般来说,这项技术应用于遥感,通讯,人像的辨识和生物医学图像识别等。其应用面的广度和深度,加之与其他计算机技术的联合使用的变式,对于初学者来说是非常复杂与难以掌握的。至于那些相对简单可以入手的应用,就比如笔者在文章开头提到的图像检测,这项技术其实没什么特别大的实用性,上限很低并不能玩出花样。

 

以上是笔者对于图像识别技术的看法,希望能给读者一个参考。至于是否继续研究这门技术,还是根据各位朋友自身情况各自决定。


亲爱的读者朋友,您对图像识别的前景如何看呢?



如欲浏览笔者的工作可点击文末左侧“阅读原文”(Read more)。



点击文末右下角"在看"(Wow)分享给关注你关注的人。