既让VR模糊后,Facebook:这次我们让VR更清晰

hi188| 编辑
大概一年前,Facebook公布了一项名为“DeepFocus”研究,这是一项通过AI实现类似人眼般的动态模糊变焦效果的技术,详情可参阅《为什么说“模糊”对VR同样重要?》。DeepFocus:动态“模糊”的重要性我们先来简单回顾一下DeepFocus。由于人眼天然具备“焦内和焦外”的视觉系统,而为了提升VR视觉观感,让其效果更接近人眼,Facebook Reality Labs决定通过具备人眼追踪的VR设备,结合DeepFocus算法,来实现逼真的动态焦外模糊效果。这种所指的“焦外模糊”即像人眼般的焦点与焦外模糊切换效果。也就是说:当你注视一个区域时,其它区域就会基于“DeepFocus”进行自然的焦点切换效果。上图中红色框代表人眼的焦点区域,可以看到整个实时的焦点切换效果非常自然。DeepFocus算法支持偶然的眼神跳动和动态模糊效果,基本上可以模拟人眼的观看效果。而这也是DeepFocus的意义所在,也是眼球追踪对于VR的一大视觉体验提升。显然DeepFocus是基于眼球追踪技术去发展的,而眼球追踪带来的另外的好处就是基于注视点渲染降低硬件压力,然后通过DeepFocus等技术达到“近人眼般的视觉观感”。实际上,想要做到较佳的偶然性模糊切换效果也是比较困难的,由于“人眼动作的不确定性”因素,可能因最终模糊变化的速度不够快,导致视觉效果一般。为此,Facebook则通过一套机器学习技术算法来搞定这件事,当时演示需要4块高端GPU才能带动,对算力要求很高。不过Facebook表示后续算法还会继续优化,并让移动设备也支持,而且该算法已开源,未来的重要性不言而喻。另一方面,前不久公开的苹果专利中也提到了类似的方案,为了解决AR中注视点渲染的连贯性和实际观感,苹果同样开发了一套AI算法,来预估眼球着落区域,以此实现虚拟图像在AR设备上更好的前景、背景切换效果。将模糊变清晰,DeepFocus完美绝配来了相对而言,上面的DeepFocus是将清晰的画面呈现动态模糊效果,主要是为了还原“接近人眼般的视觉效果”,相对来讲这项技术还比较容易实现,今天我们要介绍的主角就没那么简单了。近期Facebook Reality Labs再次公布了一项新的VR/AR视频成像相关技术:DeepFovea。简单来讲,这是一个基于AI的注视点渲染方案,它可以通过较为稀疏的像素,来生成高清且逼真的图像。首先来看看实际的效果,只需给定原图10%的像素数量,以花朵为中心点四周降噪处理。而通过DeepFovea,竟然模拟出一幅画面清晰、颜色艳丽的花朵图像,花瓣纹路、花茎结构都很清晰,甚至还有花瓣上还有些许露水。综合而言,画面主体的花朵和背景的绿叶几乎可以达到以假乱真的效果。显然,DeepFovea的意义在于VR和AR系统呈现出更清晰的画面,尤其是在移动VR一体机算力普遍偏低的大背景下,甚至未来在云VR传输后模拟增强画质等都有极为重要的意义。从名字来看,“DeepFovea”和“DeepFocus”名字十分接近,而且作用是相反的,前者意在呈现“近人眼的动态模糊”效果,而后者意在呈现“更清晰”的画面。言外之意,DeepFovea和DeepFocus这对“亲兄弟”放在一块的价值更大,两项技术结合将会大幅提升VR和AR视觉体验。DeepFovea诞生的背后高质量的VR和AR对于图像分辨率的要求是极高的,以至于催生出小派这种追求极高分辨率的VR厂商以及Varjo这种双屏方案VR厂商,NVIDIA此前也展示过动态可调屏幕的AR眼镜原型,无一不是在追求更佳的显示效果。然而,目前VR/AR图像在高分辨、高帧率、多视角图像等方面表现并不理想,因为这背后需要大量的计算资源,尤其是GPU资源。即便如此,我们对于很多PC VR内容的画质依然不能满足,更何况在VR一体机这种算力差距极大的移动平台。据青亭网了解,DeepFovea的背后是一个生成式对抗网络(GAN),它能够通过较为稀疏像素的图像,生成一幅足够逼真、自然的图像。在Facebook的测试中,DeepFovea可以将渲染所需的计算资源降低10-14倍。上面的视频展示了其中的测试方法,灰色方块代表人眼注视区域,测试时将该区域做密集区采样,而周围则作稀疏采样,目的就是模拟人眼注视效果。细节方面,DeepFovea同样是基于人眼特性,注视区域清晰,区域外则模糊。DeepFovea目的就是通过输入这种注视区域外大幅丢失像素的视频,来帮助GAN模型学习如何填充缺失的图像细节。结果是,在60×40度视场角的视频中,通过稀疏像素的模糊视频生成的视频流在像素密度上降低了99%,并且这套系统还可以降低图像闪烁、重叠、伪影等,最终达到人眼辨别真假的阈值。Facebook还表示,和目前最先进的注视点渲染方案相比,DeepFovea要更有效,而且不会出现明显的图像质量下降情况。为了进一步验证DeepFovea重建方法的效果,其还和现有的中心化渲染、视频压缩等方案进行对比,DeepFovea速度足够快,而且可在现代化硬件上实时驱动运行。这里说的现代化硬件,文中指通过在4块NVIDIA Tesla V100 GPU做基础,推断一个1080p视频每帧耗时为9毫秒。然后通过c++在NVIDIA CUDA 10和cuDNN 7.6.1上实现了一个自定义推理框架,以16位半浮点精度执行,最终能在一块GPU上实现0.7毫秒每帧输出,这样在VR中足以实现90帧的画面输出。长远来看,Facebook目标就是让让移动VR平台的算力也能运行,但显然这还有一定的距离。据悉,DeepFovea和DeepFocus都是Facebook为了改善VR和AR图形显示质量而引入的几个研究,都用到了AI技术。如果没有意外,这些技术将应用到下一代VR头显中。参考:https://ai.facebook.com/blog/deepfovea-using-deep-learning-for-foveated-reconstruction-in-ar-vr(END)
推荐阅读

每天五分钟,轻松了解前沿科技。——青亭网

为您推荐

发表评论

邮箱地址不会被公开。 必填项已用*标注

返回顶部