搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 腾讯众创空间(深圳) > 腾讯AI Lab刘威:没有深度学习的AI是不靠谱的

腾讯AI Lab刘威:没有深度学习的AI是不靠谱的

腾讯众创空间(深圳) 2017-10-30

人工智能的概念从2016年一直火爆至今,其发展速度也是越来越快。但事实上,它与在此前很火的互联网+区别甚大。有专家称,把人工智能转换成更加狭隘的定义就是深度学习。而深度学习其实是一种多层次的神经网络技术,这些深度神经网络模型能够建模复杂的非线性关系。


5月26日,在腾讯开放平台、深圳湾科技、珊瑚群主办,腾讯众创空间(深圳)承办的腾讯AI加速器初试活动中,腾讯AI Lab计算机视觉负责人刘威作主题为《深度学习重构视觉计算》的分享,为300多位创业者介绍了国内AI的发展现状及腾讯AI Lab的研究方向。


错过了现场分享的朋友,这篇文章也能满足你对AI的好奇


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的

腾讯AI Lab 总监刘威博士


没有深度学习的AI是不靠谱的


我跟很多创业者都有一个很大感觉,几年前我们在做的事情不会被认为是做AI,我也很少跟别人说我是AI工程师。行业细分领域里,做大数据的说做大数据,做图像的说做图像,做机器学习的说做机器学习。


但是因为AI行业太好了,现在所有人都说在做AI。其实没有深度学习的AI的是不靠谱的,我通俗的说一下,有了深度学习的AI就靠谱了,能商用了。


深度学习重构,为什么用重构这个词,待会我解释一下。有三个应用:视觉、语音和自然语言处理。很多学者教授说,机器学习或者深度学习像什么?机器学习就像火箭引擎,来源于我们应用场景的大数据,就像火箭燃料一样驱动着学习。目前我们用“机器学习”这个核心推动三个应用领域:视觉、语音识别和自然语言处理。


同时我们做一些新的探索(见图)

腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


第一是强化学习,比如能做很多非常难的决策,难指的是环境很难,在非常动态、噪音很大的环境里如何做出决策;


第二,生成式模型,可以生成各种数据,尤其是多媒体数据。生成对抗网(GAN)的兴起使我们能够仿真高质量的图形、图像、视频有助于训练更大规模的神经网。因为深度学习的性能非常依赖精准的数据,而精准的数据是非常昂贵的,对抗网扮演的就是自动生成训练数据的角色,进而达到更小的代价训练出深度学习模型。


最后我们结合别的学科来做认知科学。


我们希望重点培养AI三个方向的能力:决策、创造、理解。理解更多是跨学科上的理解,我们需要有物理、神经科学、生物学等的理解。


我为什么要用深度学习来重构计算机视觉呢?因为我遇到很多人,有的不是计算机领域的教授,他们认为计算机视觉是伪需求,因为根本做不到商用的水平。深度学习兴起之后,还有学者说,深度学习摧毁了计算机视觉,用了destruct,我第一次听了这个说法也觉得挺有道理,挺有感触的。


深度学习把很多核心应用领域重新重解一遍,比如图像分割,像美图软件,大都是把人脸分割出来再美化,图像分割在相当长的时间里做得很差,用深度学习分割已经做得非常精准。


但是我把这个词改了一下,我认为不应该叫摧毁,而是叫“重构”(即reconstruct)。以前的模型算法还是有用的,现在我们所做的事情是把传统和现在的技术重构在一起。


先来说图像识别如何被深度学习推动。ImageNet,ILSVRC识别,我们用百万图像训练分类模型,应用到十万的测试图像上,测算分类错误率(识别率)。


2010年没有深度学习,错误率都是挺高的,到2012年第一个成功的图像深度学习模型AlexNet出来以后,一直到2015、2016年,错误率大大降低了,图像识别突飞猛进。这个任务基本上被终结了,不再举办任何比赛,只是停留在学术研究。这个是不可想象的,我第一次看到这个数据库,人都很难做到精确的分类,机器做到了。


除了图像识别之外,我们更多想做一些多媒体的探索,比如视频识别,从一帧图到多帧图,从静到动,视频蕴含的信息非常多,还有一些运动信息,从图像到视频这个特征表示的跨度是很难学习好的,到2014年业界才做出像样的模型使深度学习第一次超过非深度学习的方法。接下来的2015、2016年,视频分类的错误率迅速的降低,到2017年我们的深度学习模型在UCF101这个最著名的视频数据库上做到最低的错误率。


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


我们用一个卷积神经网就解决了图像识别问题,只要任务定义清楚,比如识别1000类,那么只需要训练一个卷积神经网,看你的网好还是我的网好。对于视频识别,我们发现一个卷积神经网解决不了问题,于是学者们提出使用多道神经网,目前大家用的最多的是两道卷积神经网。

这就是两个突破,代表最近几年深度学习推动下的计算机视觉的非常大的进步。


腾讯AI Lab想做什么?


在计算机视觉领域,我们AI Lab想干什么事情?我们想在几个方向探索,我们想从以前图像AI过渡到多媒体AI,尤其是视频AI,大家都知道图像是静态无结构的数据,现在我们想处理分析动态的半结构/结构的大数据。在多媒体AI的框架下,我们想做渗透式的计算,比如时刻在我们的社交平台上抓取、处理、分析多种关联的数据包括图像、视频、用户评论等。


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的

这是计算机视觉的几个大的方向,是我们AI Lab总结的。可能别的学者有不同的观点,我们综合了大量的文献,最终总结出计算机视觉的研究有四个层面:


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


第一是图像处理,最成功的是P图神器。


深度学习流行之后,现在的图像处理技术大都是基于大数据训练的端到端解决方案,从以前的分步来做,通过端对端的训练,不再需要以前的预处理步骤了。


去年俄罗斯用深度学习创新出了一个非常火的图像处理APP,就是Prisma,一端是用户输入的图像和一副艺术风格化图像(即艺术滤镜),另一端是输出的艺术风格化后的图像。Prisma的艺术风格化功能就是使用卷积神经网,通过端对端训练出来的一个像素级别的变换,该变换从原始图像里获取内容,从滤镜图像里获取风格。


腾讯 AI Lab也开发了原创性的艺术风格化滤镜,这个滤镜是视频版的,用户输入一段视频和选择一个滤镜,我们能生成可视效果非常酷炫的风格化视频。


目前腾讯的几个产品如手机QQ正在测试我们AI Lab开发的视频滤镜,这个就是从图像AI进阶到视频AI我们的一个成功探索实例。


第二层是物体检测与识别、图像语义分割,主要研究的是图像语义信息的探索。


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


这四个图说明的是物体分类、物体定位、物体检测、物体分割。分类的目标是“是不是猫?” 定位的目标是“猫在哪里?” 检测的目标是“有哪些动物?它们在哪里?” 分割的目标是“动物在哪些像素区域”? 传统方法的流程是这样的,先开发各种手工的特征,比如图像局部描述子和全局描述子,然后在这些手工特征上计算中层特征,最后把中层特征丢到分类器里,用得最多的分类器是逻辑回归和SVM。


大家可以发现传统方法是把一个任务分开两块来解决:即特征表示与浅层学习模型。有了深度学习之后,特征表示与学习模型联合地学习,更加直接地解决了分类、定位、检测、分割这些问题。


第三层是图像分析理解,研究的是从图像里找到一些行为、关系、因果等,可以简单理解为相对第二层视觉,这一层探索的是图像中比名词更广泛的语义,比如动词、短语、句子等。从第一层视觉的没有语义到第二层的有语义,从第二层视觉的名词理解再到第三层稍微复杂的动词理解,和更复杂的句子理解,形成了视觉系统抽象层的进化。


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


从计算机视觉这门学科1979年诞生开始,很多人认为图像是蕴含着语义的。发现图像中的语义在历史上一直是非常难的,很多年以前我认为这是空中楼阁无法企及,那个时候连图片像素中哪些有用哪些没用都没有搞清楚,如何找到语义。自2012年深度学习在计算机视觉物体识别任务上大获成功后,以前对于图像的梦想一步一步实现了,我们确实从图像中找到了语义。


这是我们AI Lab开发的一款图像AI程序:图像描述生成。我觉得我们的程序在图像局部注意力上做得比较好,比如“蓝天下的雪山”这幅图像,而其他业界程序忽略了“蓝天”只注意到“雪山”。


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


最后一层是视频分析理解,我们AI Lab 在这方面的重点研究是视频分类、视频描述生成和视频缩略。视频分类简单的说就是给视频打标签,我们研究了各种深度学习模型,研发出一个能自动筛选关键视频段落,并捕捉多个时间尺度信息的模型,目前我们这个模型取得业界领先的视频分类性能。视频描述生成指的是:用一段话来描述一段视频。


比如我们看了一个很长的新闻网页,已经有成熟的AI技术能够对其进行自动的文字总结,我们把新闻换成视频,也可以进行自动的文字总结,这需要对视频进行高度抽象的深度学习技术。


视频缩略指的是:AI代替人去看一段很长的视频,把它自动剪辑成非常短的视频。成功的视频缩略要求能够涵盖原始长视频中的主要情节,并且足够连贯。我们 AI Lab 研发的视频缩略技术能将一部30-40集的电视剧浓缩到半小时,这样能满足用户用有限的时间了解故事梗概的要求。

计算机视觉研究,中国能更快商业化


论AI的技术水平,中国与欧美发达国家相比,目前差距不小,但如果狭义到深度学习或者计算机视觉,我认为中国与美国的差距没有那么大。中国科研人员提出了很多原创性的模型和算法,已经得到了主流学届、工业界的承认。

  

论计算机视觉,我甚至认为中国可能要强于美国。当然有很多原因,首先数据肯定比美国丰富,一方面有人认为中国图像数据很便宜,中国的公司标注图像成本因此相对低不少,数据多而且标签精准。其次我们人口基数大,每天有几十亿到几千亿量级的数据在互联网上流淌。另一方面,深度学习的模型算法不比美国差多少,甚至某些方面强于美国,加上很多开源的AI平台,我认为在计算机视觉这个领域,就算中国现在是落后美国一些,发展下去终将超过美国。


既然计算机视觉更多是在应用层面推进,综上所述,我认为如果一个概念、思想在论文里创造出来后,中国能够更快将它商业化。


腾讯AI Lab刘威:没有深度学习的AI是不靠谱的


一场看似遥远的变革,

其实已经悄然发生在你身边。

还等什么?

快加入腾讯众创空间,

加入改变未来的行列!

入驻请联系珊瑚君

手机&微信185-7647-2872


关于腾讯众创空间(深圳)

腾讯众创空间(深圳)由腾讯开放平台、深圳湾科技、珊瑚群创新加速器共同打造,是目前深圳最大的互联网与智能硬件生态型众创空间,为创业者提供全要素立体式孵化加速服务。

入驻要求

1、互联网、智能硬件等相关领域创业项目;

2、完成天使轮融资、处于A轮前后,优秀项目可放宽条件;

3、需互联网或智能硬件行业知名企业、投资机构、入驻项目或腾讯、深圳湾科技、珊瑚群高管推荐。

入驻申请

步骤一:将完整项目BP及联系方式,发送至邮箱startup@coralgroup.cn;

步骤二:登陆腾讯众创空间网站(zc.open.qq.com)提交项目信息。



版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《腾讯AI Lab刘威:没有深度学习的AI是不靠谱的》的版权归原作者「腾讯众创空间(深圳)」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注腾讯众创空间(深圳)微信公众号

腾讯众创空间(深圳)微信公众号:txzckj_sz

腾讯众创空间(深圳)

手机扫描上方二维码即可关注腾讯众创空间(深圳)微信公众号

腾讯众创空间(深圳)最新文章

精品公众号随机推荐