麻省理工学院人工智能技术可以实时生成3D全息图

尽管炒作了多年,但虚拟现实耳机尚未推翻电视或计算机屏幕作为视频观看设备。原因之一:VR可以使用户感到恶心。恶心和眼睛劳损可以解决

尽管炒作了多年,但虚拟现实耳机尚未推翻电视或计算机屏幕作为视频观看设备。

原因之一:VR可以使用户感到恶心。由于用户实际上盯着固定距离2D显示屏,但恶心和眼睛劳累可能会导致3D观看的幻觉。更好的3D可视化解决方案可能在于为数字世界重制的60年历史的技术:全息图。

全息图提供了我们周围3D世界的特殊代表。另外,它们很漂亮。 (继续 – 查看签证卡上的全息鸽子。)全息图提供了基于观看者位置的转移视角,它们使眼睛可以调整焦点深度,以交替专注于前景和背景。

长期以来,研究人员一直在寻求制造计算机生成的全息图,但是传统上,该过程需要超级计算机通过物理模拟进行搅拌,这是耗时的,并且可能产生不如遗传学的结果。现在,麻省理工学院的研究人员几乎立即开发了一种新的方法来生产全息图 – 基于深度学习的方法是如此有效,以至于可以眨眼间的笔记本电脑运行。

该研究的主要作者兼麻省理工学院电气工程和计算机科学系(EECS)的博士生Liang Shi说:“人们以前认为,使用现有的消费级硬件,不可能进行实时3D全息计算。” “通常有人说,商业上可用的全息图显示将在10年内出现,但这种说法已经存在数十年了。”

什(Shi)认为,团队称之为“张量全息图”的新方法最终将带来这一难以捉摸的10年目标。进步可能会将全息图溢出到VR和3D打印等领域。SHI从事这项研究,与他的顾问和合着者Wojciech Matusik一起在自然界发表。其他合着者包括EEC的Beichen Li和麻省理工学院的计算机科学和人工智能实验室,以及前麻省理工学院研究人员Changil Kim(现为Facebook)和Petr Kellnhofer(现为斯坦福大学)。

寻求更好的3D

由研究人员提供

典型的基于镜头的照片编码每个光波的亮度 – 照片可以忠实地重现场景的颜色,但最终会产生平坦的图像。

相反,全息图既编码每个光波的亮度和相位。这种组合对场景的视差和深度进行了更真实的描述。因此,虽然莫奈的“水百合花”的照片可以突出绘画的颜色味,但全息图可以使作品栩栩如生,从而使每种笔触的独特3D纹理呈现。但是尽管他们的现实主义,全息图是制造和分享的挑战。

首次在1900年代中期开发,在光学上记录了早期全息图。需要将激光束分开,用一半的光束来照亮受试者,另一半用作光波相的参考。该参考会产生全息图的独特深度感。最终的图像是静态的,因此无法捕获运动。而且它们仅是硬拷贝,使它们难以复制和分享。

计算机生成的全息图通过模拟光学设置来回避这些挑战。但是该过程可以是一个计算障碍。 “因为场景中的每个点都有不同的深度,所以您不能为所有人应用相同的操作,” Shi说。 “这显着提高了复杂性。”指示簇的超级计算机运行这些基于物理的模拟可能需要几秒钟或几分钟的时间才能进行单个全息图像。另外,现有的算法不会用照片逼真的精度对遮挡进行建模。因此,史的团队采取了不同的方法:让计算机教物理学。他们使用深度学习来加速计算机生成的全息图,从而实时全息图。该团队设计了一个卷积神经网络 – 一种处理技术,该技术使用一系列可训练的张量来大致模仿人类如何处理视觉信息。培训神经网络通常需要一个大的高质量数据集,以前3D全息图不存在。

该团队构建了一个定制数据库,其中包括4,000对计算机生成的图像。每对匹配图片 – 包括每个像素的颜色和深度信息 – 及其相应的全息图。为了在新数据库中创建全息图,研究人员使用了具有复杂和可变形状和颜色的场景,像素的深度从背景到前景均匀分布,并具有一组新的基于物理的计算来处理闭塞。这种方法产生了逼真的训练数据。接下来,算法开始工作。

通过从每个图像对中学习,张量网络调整了其自身计算的参数,从而增强了其创建全息图的能力。完全优化的网络运行的数量级比基于物理的计算快。这种效率使团队本身感到惊讶。“我们对它的表现感到惊讶,” Matusik说。在单纯的毫秒中,张量全息图可以从具有深度信息的图像中制作全息图,这是由典型的计算机生成的图像提供的,并且可以根据多机构设置或LIDAR传感器进行计算(两者都是一些新智能手机的标准配置)。这一进步为实时3D全息图铺平了道路。此外,紧凑的张量网络需要少于1 MB的内存。他说:“考虑到最新手机上可用的数十个千兆字节,这是可以忽略的。”

该研究“表明,真正的3D全息显示器是实用的,只有适度的计算要求,” Microsoft的主要光学架构师Joel Kollin不参与研究。他补充说:“本文显示了图像质量比以前的工作有明显的改善”,这将“为观众增添现实主义和舒适感。” Kollin还暗示了这样的可能性,甚至可以将类似的全息图显示给观众的眼科处方。 “全息显示器可以校正眼睛中的像差。这使显示图像比用户使用触点或眼镜所能看到的要透明,这仅适用于焦点和散光等低点畸变。”

“一个相当大的飞跃”

实时3D全息图将增强从VR到3D打印的大量系统。该团队表示,新系统可以帮助您将VR观众置于更现实的风景中,同时消除了长期VR使用的其他副作用。该技术可以轻松地部署在调节光波阶段的显示器上。目前,大多数负担得起的消费级显示器仅调制亮度,尽管如果采用广泛采用,相位调节显示的成本将下降。研究人员说,三维全息图还可以促进体积3D打印的发展。该技术比传统的逐层3D打印更快,更精确,因为体积3D打印可以同时投影整个3D图案。其他应用程序包括显微镜检查,医疗数据的可视化以及具有独特光学特性的表面设计。

Matusik说:“这是一个相当大的飞跃,可以完全改变人们对全息图的态度。” “我们觉得神经网络是为了这项任务而诞生的。”

索尼部分支持这项工作。

经过麻省理工学院新闻的许可转载。阅读原始文章。

原创文章,作者:新知会,如若转载,请注明出处:http://www.dsonekey.com/3192.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息