分享

基于深度学习的超分辨率图片识别与图片重建

本帖最后由 fc013 于 2017-11-11 19:56 编辑


问题导读:


1.什么是TSR技术?
2.什么是超分辨率技术?
3.TSR技术是怎样实现的?






前言

在去年10月,谷歌发表了一篇论文讲述了他们推出的一项新技术RAISR(Rapid and Accurate Image Super-Resolution),利用机器学习将低分辨率图像转化为高分辨率图像。这项技术能够在节省带宽75%的情况下分辨率效果达到甚至超过原图,同时速度能够提升大约10到100倍。于是很快RAISR成为该领域的行业标杆。

近日腾讯QQ空间联合优图实验室也推出的他们在此领域的最新技术TSR(Tencent Super Resolution)。本项目采用深度神经网络来识别图片内容并进行图片内容的细节重构,能够通过机器学习来识别图片的内容与纹理,从而能够将图片进行高清重建, 达到业界(NTIRE2017)领先水平,使用本技术可以极大的提高用户体验。本技术能够在图片size只有原来25%的情况下将图片还原到与原图的同等效果,在空间的应用可以节省用户75%的流量。本项目业界首创实现了一种多核异构GPU/CPU加速技术,能够使用深度学习模型摆脱昂贵的GPU设备,可以在普通的用户手机端运行。

1、创新特性名(name)如 产品名:

TSR:基于深度学习的超分辨率技术及应用

2、主创团队名(who)

社交平台部 & 优图实验室

3、创意点的产品功能/使用场景介绍(what/where)

TSR(Tencent Super Resolution)是一种采用深度神经网络来进行图片超分辨率的技术。在深度神经网络的算法处理下,能够通过识别图片的内容与轮廓高清重建图片的细节与局部特征,把一张模糊的图片变得非常清晰,从而达到很好的视觉效果。目前已经应用到QQ空间图片高清放大查看。

同时TSR能够保证图片大小只有原来25%的情况下,完全重构图片的纹理与色彩,在节省带宽75%的情况下通过智能算法重构达到与原来图片一样的清晰度。目前应用到QQ空间大图浏览。

TSR是业界首次实现移动端使用深度神经网络进行超分辨率,并保证图片能够实时进行处理。即使在用户的普通Andriod手机,也可以使用这项技术。
在空间的应用效果如下图:

1509503232981_6873_1509503281687.png

4、创新点的创新之处的具体描述(innovation)——评审创新性

本项目是业界首次将深度学习的超分辨率技术实现落地应用地项目。在这之前,超分辨率技术的研究一直停留在学术界与实验室。本项目是业界首创实现在移动端进行深度神经网络学习学习即使在普通AND机器上也可以运行本模型。

TSR是目前业界领先的超分辨率技术,不管是在处理速度与处理效果上都超过之前行业的标杆GOOGLE的超分辨率技术RAISR。在处理速度在RAISR的基础上提升40%。处理效果上的提升也很明显。

TSR与RAISR的效果性能对比:

1509503251741_8553_1509503300209.jpg

对于图片细节与纹理的处理来看,TSR对比RAISR在细节还原上有着更出色的表现:

1509503268280_1550_1509503317645.jpg

其次,TSR是目前业界首创并且也是唯一能够将基于深度学习的超分分辨率技术落地并应用到移动端的技术。在用户的普通的手机上,也可以很好的运行TSR并取得不错的效果。

1509503283429_7488_1509503331917.jpg

最后,基于TSR衍生出来的深度学习框架RapidNet是目前业界最优的移动端深度学习框架,对比CAFFE2与TENSORFLOW框架,性能提升平均达到20倍。能够把深度学习落地到普通手机。

TSR已经提交三项核心专利技术。相关研究结果已经投递 CVPR 2018。

5、创意如何产生的(创新点相关小故事)(why)

QQ空间相册作为用户主UGC数据的主要战场与社交场合,我们一直在关注这里的图片质量与流量优化。如何较大节省用户流量的情况下,提高用户的体验与图片质量,特别是部分历史老照片怎么样高清还原提供给用户,一直是我们追求的目标。

随着深度学习在图片内容识别,分类中的应用,我们关注到学习界结合深度学习的超分辨率技术能够达到较好的效果。同时去年7月,GOOGLE也发表了论文推出了超分辨率技术RAISR,怎么样把超分辨率技术应用到我们实际项目中来,成为我们的驱动力。

随着Jiayajia,yuwingtai,等一批学术大牛的加入,基于腾讯自己的超分辨率技术 (TSR)项目在Karl, Simon, Vincent等支持下正式立项。我们的目标是打造业界领先的超分辨率技术,并创造性的把超分辨率技术迁移到用户普通的手机终端。使用用户普通的AND手机也可以进行深度学习算法处理,从而实际节省用户流量和提高用户体验。同时推动深度学习从后台向移动端演进。

经过半年的研究突破,TSR项目落地。不但对标学习界有较好的效果,而且创新性的把超分辨率技术在实际项目中落地,能够节省用户75%的流量,也是业界进行移动端跑深度神经网络并达到实时效果的首创。

6、怎么实现的(how)——评审创新点的复杂度

首先,我们训练并实现了一个10层的深度卷积神经网络,对比目前学术界研究的神经网络,本网络能够很好的解决CheckerBoard Artifacts和对于部分图片处理文理不清晰问题。通过神经网络能够抽象出图片的整体特殊,识别图片的纹理与内容,根据图片的纹理与内容进行图片的高清细节重建,从而达到远超过原图的视觉效果。

通过控制卷积神经网络的层数与每层的CHANEL数,在简化整体计算量的情况下,能够很好的解决图片过于平滑,纹理不清晰的问题。通过精简化设计,TSR能够保证模型在只有4。6KB的基础上有不错的处理效果。

神经网络结构图如下:

1509503321759_1221_1509503370247.jpg

TSR采用了二次插值对图片进行预处理,这样能够对比较模糊的UGC图片也能取得较好的效果。针对人眼对于颜色与亮度的敏感程度,对图片采用Cbcr与Y通道分离,只对Y通道数据进行超分处理的方法提高处理速度。

针对个模型采用PRelu作为激活函数以得到更快的收敛速度与更好的网络表达能力。采用基于Adam(Adaptive Moment Estimation)的梯度下降法求解神经网络模型的具体参数。

1509503332939_3551_1509503381428.jpg

具体的模型训练上,我们先采用1W张用户真实图片,通过调整图片颜色,高度,对比度,施转,左右反转等操作构造上百W个用户训练样本集。采用压缩的方法将训练样本图片宽高各压缩到原来的1/2,这部分图片经过超分处理后再与原来的图片的效果进行比较,根据对比效果进行调整模型参数。

与业界的训练该方法不同,除了对比图片的损失(PSNR)外,我们同时引入了可视化评测系统,使用用户的真实图片进行可视化评测。已达到最佳的超分效果。

1509503343107_486_1509503391589.jpg

经评测,我们的模型在图片处理的两项关键指标PSNR与处理速度上均达到业界领先水平。在处理速度上,TSR领先于目前主流的超分辨率技术。同时,对摄像效果不那么好的图片,TSR也能取得不错的效果。

TSR与学术界前沿超分辨率技术对比如下图(NTIRE2017数据,400* 300 放大到 800 * 600,硬件环境:Titan XP workstation)。 可以看到在处理速度与图片效果来看,TSR都处于业界领先水平。

1509503351462_4992_1509503399952.jpg

同时,TSR是业务首创的将超分辨率技术应用到移动端的技术。目前主流的深度神经网络模型一般在后台的高性能GPU机器上运行,对机器性能要求比较高。TSR基于对超分技术与移动端手机架构的深入研究,提出基于手机端深度学习架构,能够充分使用移动端的GPU和CPU资源,使用异构并行计算技术与数据并行处理技术进行加速。对比业务的主流框架如CAFFE2与TENSORFLOW ,性能提高10倍以上,内存消耗降低95%。是目前唯一能够在普通的Andriod手机上也可以运行的技术。

1509503372453_699_1509503420932.jpg

深度学习从后台迁移到后台手机端,TSR主要首创了如下关键技术。

1) TSR独创分块加速技术,把图片分成很多小块通过神经网络进行处理。分块加速技术充分使用CPU的多核特性,使用进行多核并行计算。使用算法对图片的纹理复杂度进行识别和智能处理,大大提高图片的处理速率。

1509503389132_3604_1509503437721.jpg

如下图示,通过智能识别可以加速蓝框中图块的处理过程。

1509503400290_8634_1509503449044.jpg

2)其次,TSR是业界首次采用异构多核CPU/GPU加速技术。能够根据用户手机的GPU与CPU能力进行任务的智能划分,联合GPU/CPU进行处理以达到较好的处理效果。

1509503425781_9874_1509503474430.jpg

3)第三,TSR打造了统一移动端并行加速框架RapidNet。深度融合了基于AND平台的opencl GPU并行计算加速技术与基于IOS平台的METAL 加速技术。对于基于ARM结构的CPU,充分利用neon SIMD技术和线程池技术。对比业界主流的机器学习平台,速度提高10倍以上。

TSR/RapidNet架构如下图所示:

1509503483449_5448_1509503532086.jpg

TSR对比业界的处理效果:

1509503497793_5220_1509503546284.jpg

4)第四,TSR采用了动态探测与模型动态加载技术,保证了手机端全覆盖。TSR会动态探测手机的处理能力,针对不同手机实时加载不同的模型,从而能够保证所有性能的手机客户端都可以使用这种技术,保证了手机端的全覆盖。

1509503520266_3590_1509503568772.jpg

通过超分辨率技术在QQ空间的项目实施,可以达到节省空间75%的图片流量,同时预计可以节省存储150P。

7、产品的意义对未来的展望(for future)

1)可以应用到业界所有的图片处理,使用本技术能够给用户节省75%流量,大大降低图片传输的带宽。目前已经应用的QQ用户普通的图片浏览,达到节省75%流量的情况下达到同等视觉效果。

同时,在如QQ,微信,天天P图,动漫业务都是TSR的目标使用场景。

1509503553090_1747_1509503601575.png

2)本技术可用于所有对图片质量要求较高的场景,通过基于TSR的超分辨率技术可以智能修复用户的老照片,模糊的图片,能够把普通图片变成清晰图像。目前已在最新版QQ上使用,用户进行放大查看图片细节时可以达到“无限”缩放的高清效果。

3)同时本技术带来的另一个收益是打开了移动端进行AI相关的深度机器模型学习的大门。在此之前需要采购昂贵GPU设备才可以运行的深度神经网络,现在在用户的普通手机上也可以运行,这项技术可以极大的推动手机端进行神经网络处理的进程,对于像人脸识别,OCR识别,背景识别,人物美妆等实时应用可以达到同等效果。

8、TSR处理效果样例:

用户原图与经TSR处理后的图片对比(左边是原图,右边是超分辨率(TSR)处理的图片)

1509503836852_2839_1509503885543.jpg

细节对比:

1509503862959_477_1509503911422.jpg

TSR处理后效果对比

1509503885513_6096_1509503934044.jpg

细节对比:

1509503921275_2184_1509503969861.png

TSR处理后效果对比:

1509503952281_3475_1509504000763.jpg

细节对比:

1509503974459_1092_1509504022927.jpg

TSR处理后效果对比:

1509504007087_3772_1509504055597.jpg

细节对比:

1509504035990_6478_1509504084472.jpg

TSR处理后效果对比:

1509504065703_8051_1509504114215.jpg

细节对比:

1509504090356_1761_1509504138861.jpg

用户普通图片压缩75%再进行TSR处理后跟原图进行对比效果(左边是原图,右边是SIZE压缩到25%后使用TSR进行还原的图片效果):

1509504109930_3307_1509504159628.jpg

1509504126418_9437_1509504176115.jpg

1509504142018_3629_1509504191016.jpg

1509504155573_2183_1509504204713.jpg

1509504170679_6359_1509504220144.jpg

1509504184026_155_1509504233718.jpg

1509504222193_2555_1509504271908.jpg

1509504231741_6420_1509504281235.jpg

1509504239822_5707_1509504289329.jpg

1509504250612_6410_1509504300166.jpg




来源:tencent
作者:QQ空间开发团队

原文链接:TSR:基于深度学习的超分辨率技术及应用

本帖被以下淘专辑推荐:

已有(4)人评论

跳转到指定楼层
zhongfengtuo 发表于 2017-11-14 09:22:50
这个比较厉害!!!
回复

使用道具 举报

imcjp 发表于 2017-11-14 18:55:33
大神哥哥,能不能带带我
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条