戴上耳机就能置身NBA总决赛现场?动态3D音频为VR注入灵魂!

Emma Chou

1

戴上虚拟现实耳机,忽然你就被传送到一个遥远的星球上,在外星物种之间激烈的战斗中,利落地躲避双方交火。激光步枪从你头顶呼啸而过、军用飞机在你面前盘旋、四面八方的士兵发出疯狂呼叫……

换个频道。

现在你站在篮球比赛场边。你可以听到球员们在你面前的球场上说话,教练在你左边的板凳上大喊大叫。转动一下头,声音也随你旋转;在广播台的播音员在你面前,裁判的声音听起来在后面。

再换个频道。

现在你来到了哥德堡音乐厅,这里的音响效果在世界上数一数二。从你的前排座位开始,109人的管弦乐队在你面前静静地酝酿,然后咆哮起来,声音紧紧地环绕着你。将头转向左侧,可以听到更加强烈的小提琴声;将头向右偏一偏,可以听到大提琴和铜管乐器的声音比其他乐器要高一点。

如今,创建这些虚拟现实(VR)体验的可视组件技术正在逐步向广泛应用和可负担方向发展。但要有效地工作,虚拟现实需要的不仅仅是视觉效果。除非你所听到的与视觉效果有令人信服的匹配,否则虚拟体验就会分崩离析。

就拿上文提到的那场篮球赛来说。如果球员、教练、播音员和人群听起来都像是在中场,你还不如在电视上看比赛,这没有一种身临其境的沉浸感。

不幸的是,今天的音频设备和我们广泛使用的录音和复制格式,根本不足以令人信服地重新再现一个遥远星球上的战场声音、在球场上的篮球比赛,或者从第一排听到的交响乐,而是一个很棒的音乐厅。

当然,通过耳机播放的立体声录音可能会将体育播音员的声音放在右耳,而教练的声音则放在左边。但无论你在虚拟环境中移动多少次,它们仍然会存在那里。为了获得逼真的体验,工程师需要复制每个声音的精确方向性和位置,从上到下,从远到近,从后到前,并随着用户在虚拟世界中的移动而动态更新。

这是一个很大的挑战,但并非是不可克服的。一些虚拟现实生产商已经开始使用有限的第一代3D音频技术来改进二维立体声和环绕声。目前在瑞典乌普萨拉的Dirac Research研究实验室,包括Mathias Johansson的研究实验室,在短短几年内就有望实现真正逼真的虚拟现实音频。以下是我们认为如何能在虚拟现实中提高赌注的方式。

今天最广泛使用的音频格式是双声道或立体声。立体声系统记录左右两个信号;听众通过一对扬声器或耳机播放它们 ——同样,一个在左边,一个在右边。通过添加中央前置扬声器,两个或四个后置扬声器以及用于专门低音输出的低音炮,环绕声系统超越了立体声。较新的方法,如Auro Technologies的Auro-3D,可以在不同的高度添加扬声器。这些开始产生3D幻觉,但由于扬声器位置是固定的,因此无法创建虚拟世界。在现实世界中,你可以移动,并且当你移动时,听觉体验会发生显著变化。

尽管这些复杂的环绕声设置肯定比之前的立体声更好,但对于今天的大多数听众来说,进化已经倒退了。现代便携式音乐设备已经让人们远离扬声器和耳机。这距离逼真的声音还有一步之遥,因为今天的耳机甚至不能正确地发出立体声,更不用说环绕声或接近3D的任何东西了。

这就是原因。对于扬声器,只有通过左扬声器播放的声音才能通过左耳和右耳听到,几乎在不知不觉的瞬间听到并略微衰减。你的大脑会处理这种轻微的延迟和衰减,并让你瞬间了解声音的方向和距离。但是当你使用耳机时,左声道只能到达你的左耳。经验是人为的,它会引起一些奇怪的看法。例如,当一个声音在耳机的左右声道中都同样响亮时,它似乎是从头部内部发出的,而不是从你面前的某个位置发出的。这就是为什么通过耳机听到的音乐体验有时会显得有些奇怪。我们如何从那里获得完全三维的、互动的虚拟音频体验?

只有两个单独的声道可以使用,这样的目标似乎无法实现。但原则上并非如此:人类听觉系统仅使用两只耳朵来区分前后、上下,以及介于两者之间的所有内容,因此工程师应该能够通过仔细控制时间、音量、共振来创建3D音频体验,以及每个声音到达耳朵时的回声特征。这需要大量的高速计算才能在运行中调整通过每个声道的声音,但幸运的是,高速计算是我们可以做的事情。

实际上,整个音频行业的研究人员正在研究这种方法。一个幸运的方面:工程师可以更好地控制耳机产生的音频,而不是露天扬声器,因为他们不需要补偿房间的形状或其中的物体,也不需要处理背景或其他杂散的噪音或声音反射,这些可能会分散虚拟环境的注意力。

创建3D音频录制的最简单方法是将麦克风放在人的耳朵中,并从特定位置以立体声录制场景。在实践中,声音工程师通常使用模拟头来执行此操作。这被称为双耳录音,这个过程已经存在了很长时间。一些广播电台播放了双耳录制的音乐会,但该技术从未广泛流行。

双耳录音有几个限制。但对于虚拟现实,主要问题是听众和声源的固定位置。

尽管如此,我们可以从双耳录音中学到很多东西,并将我们学到的东西应用到为虚拟现实创建交互式音频。双耳录音从每个声源捕捉到不同的声音强度和到达两只耳朵的时间,它还捕捉到由于头部、耳朵和躯干形状引起的反射和阴影而引起的声音变化。科学家将后一种效应称为头部相关传递函数(HRTF)。

凭借强大的计算机和数字信号处理软件,以及配备位置跟踪设备的耳机,我们可以使用仿真头或实时模型创建标准化的HRTF,然后在播放期间根据听者的头部方向和声源的原始方向进行实时调整。

然而,这是我们在开发过程中遇到阻碍的地方。立体声和环绕声都是音频工程师所说的基于声道的格式:它们对某些扬声器配置的音频进行编码以便播放。普通的立体声录音只有基本的左/右信息。它们不包含有关录制声音的详细方向信息。环绕声听起来效果更好;最著名的环绕声格式5.1声音,允许混音工程师相对于五个不同的参考位置定位声音,并添加通过低音炮播放的低频声道。该格式假设扬声器位于收听者的左前、中前、右前、左后和右后方。这个方案给我们提供了比普通立体声更多的信息,但它仍然不足以说服VR。

一种更新的方法是基于对象的格式。一个基于对象的录制通过标记声源来编码声场,而不是假设一个特定的回放系统。例如,大提琴、钢琴和歌手的位置、强度和其他数据的信息被标识出来。然后,该方法依赖于智能回放设备根据其能力解释标签,并以与标签一致的方式发出声音。 2012年推出的杜比全景声(Dolby Atmos)和2015年推出的DTS:X都采用了这种方法。

最初创建基于对象的格式以改善家庭影院体验。例如,支持杜比全景声的家庭影院接收器采用了天花板扬声器。而这些格式可能适用于虚拟音频。

第三种方法是基于场景的格式。 20世纪70年代由英国国家研究开发公司(National Research Development Corp.)赞助的Peter Fellgett、Michael Gerzon和其他研究人员开发的环境立体混合声(Ambisonics)采用了这种方法。基于场景的编码创建了从特定位置看到的记录声场的空间表示。在其基本配置中,环境立体混合声录音使用以四面体排列的四个麦克风胶囊(更高分辨率的录音相应采用数量更多)。与基于对象的格式相比较,基于场景的编码视为将听众周围的声音分类为多个预先设置的定向存储箱中,而基于对象的格式不预先确定存储箱,而是让每个声音对象位于任意位置。

目前的环境立体混合声技术存在重大缺陷,特别是在现实世界的录音中。空间分辨率低,并且录制麦克风容易使方向性模糊。但这是一种便捷的录音方式。而且因为它是一种易于获得的开源格式,所以,大大小小的参与者都在使用它。其中包括Facebook和谷歌,前者将其整合到360度视频中,后者将其应用到VR音频技术中。

迄今为止,两家主要的商业音频公司已经发布了支持3D音频的编码格式,其中包含了一些这些技术。由位于德国埃尔兰根的弗劳恩霍夫集成电路研究所开发的MPEG-H 3D音频系统支持基于对象、基于声道和基于场景的音频,以及它们的组合。杜比AC-4支持基于对象和基于声道的音频。虽然所有这些方案都取得了一些成功,但没有一个能脱颖而出,而且目前尚不清楚其中一方是否会最终占据主导地位。迄今为止,这些方法一直专注于通过扬声器对音频进行编码;而转向耳机带来了更大的挑战。

对于我们这些试图创建真正虚拟音频的人来说,所有这些活动都是好消息。然而,尽管这项工作已经奠定了良好的基础,但现有的任何一种方法都不太可能发展成为强大的3D音频技术。我们仍需要想出一种新方法。

研究人员离目标越来越近了。如果我们将基于对象和场景的编码与HRTF处理相结合,理论上我们应该能够通过耳机渲染3D音频以用于头戴式VR,并让听众在虚拟世界移动时以交互方式进行调整。

但是,到目前为止,应用这项技术还很困难。 HRTF播放的一个关键缺点是前/后混淆。这是问题所在。人耳的位置意味着在听者前方或后方(或上方或下方)产生的死点,声音在每只耳朵处具有相同的到达时间和强度。因此,为了确定声音的位置,大脑利用由耳朵、头部和躯干的形状引起的微小变化。根据声音来自的方向,这种解剖结构中的精细细节,它们产生的阴影和反射,优先放大相对于其他频率的某些频率。这些细节因人而异,主要是因为我们耳朵之间的距离,但也因为其他解剖学上的差异。

许多研究人员认为,解决前/后问题的唯一方法是使用个性化的HRTF,即个性化的声体图。

另一个挑战是HRTF处理的声音通常听起来不自然。某些音频频谱不可避免地被放大太多或太少。挑剔的听众可以很容易地察觉到这些不一致。一个随意的听众可能不会直接察觉出来,但会听到一些不对劲,比如便宜的音频扬声器和昂贵的音频扬声器之间的区别。

第二个问题的原因尚不清楚。一些人认为我们衡量HRTF的方式存在缺陷,导致我们现有的HRTF数据库不足。其他人认为除非HRTF个性化,否则声染色是不可避免的。现实可能是两者的混合:即使在测量单个HRTF时,声染色也不会完全消失,尽管定位精度比通用HRTF大大提高;用于衡量HRTF的技术可能至少要负部分责任。

研究人员目前正在测试用于创建个性化HRTF的不同测量思路。有些人把麦克风放在听者的耳朵里,记录来自不同方向的测试信号;这是一种费时且容易出错的方法。另一些人则试图利用扫描和计算机图形分析工具(如光线追踪)为单个耳朵建模,以编码它们如何从不同角度反射声音。

虽然个性化的HRTF可能很难解决当前VR声音的一些困难,但它们还有其他问题。一方面,他们假设一个静止的头部和躯干同时移动,而VR用户经常转动他们的头部却不移动身体。但最大的困难只是创建它们的时间和成本,这意味着它们对普通的VR用户来说并不实用。

这是Mathias Johansson公司的研究成果。在过去的10年里,Mathias Johansson担任首席执行官兼联合创始人的Dirac已经研究了各种改进HRTF处理的方法。研究人员发现,头部运动尤其会对HRTF产生重大影响。

为了更容易理解,想象一下你的头偏向你的肩膀。当你的耳朵靠近你的肩膀时,来自肩膀的声音的反射更快地到达耳朵,而另一只耳朵的相应反射得到额外的衰减和延迟。

根据这一观察,Johansson建立了一套称之为动态HRTF的方法。他们以30人的测量为基础,让受测人的头部相对于他们的身体做出各种各样的偏转、低头、抬头和各种转动的姿势,并在三维空间中以一种分辨率对他们的头部进行定位,然后测试从受测人前方、两侧、上方、下方和后方播放的声音。最终,Dirac为每个主题做了几百次测量。 (实际测量的HRTF数量取决于每个受试者的运动范围。)

为了避免对模型进行个性化,以及由此产生的开销,Dirac专注于HRTF的共同方面。如果HRTF的频率响应中的某个特征对所有测试人员都是常见的(在容忍限度内),就将其作为我们通用模型的一部分;如果某个特征不常见,算法确保这个HRTF在处理过的声音上没有留下任何声音痕迹。

这种方法对每个人来说并非完美。但是Dirac已经对它进行了研究,并且相信有一些强烈的阴影效应和一些强烈的反射与身体相关的头部方向有关,如果模型足够好,可以捕获人类听觉系统所需的基本信息,从而确定声音的方向。此外,只要HRTF以一致的方式捕获头部或音频对象的运动,听众的听觉系统就会忽略通用模型和个人HRTF之间的微小差异。因此,对于大多数听众而言,音频体验将足够逼真。对于某个方向的个人HRTF与模型有显著差异的人来说,声音仍然看起来相当自然,尽管不是100%方向准确。

Dirac的动态HRTF技术的首次商业化实施Dirac VR将于今年晚些时候开始出现在游戏耳机制造商的产品中。

然而,修复动态HRTF问题并不能让我们获得真正逼真的虚拟声音体验。 HRTF为我们提供了一种模仿来自任何方向的声音的方法,但声音也受到不仅仅是听众身体特征的影响。在空旷的地方与你交谈的人听起来与在房间里说话的人非常不同。即使在房间内,墙壁和其他物体的位置也会严重影响声音。

因此,对于虚拟环境,我们必须考虑虚拟房间的形状及其中的物体(或道路、悬崖或战场)如何影响声音。这涉及建模反射和驻波、墙壁的扩散属性,以及创建声音时内部物体的效果。

然后,在回放时,我们必须同时考虑虚拟房间和实际听众,不仅传递每个声音,而且传递声音的每个反射 -从地板、天花板和其他物体上反射 - 并通过适当的HRTF。这个过程很快变得非常复杂且需要庞大密集的计算。

目前,对于游戏等交互式应用程序,开发人员可以简化声学信息。它们将声音与组合的环境声场分离成一组定向声源,而不是模拟整个场景的声学特性。然后可以通过HRTF处理定向声音,同时假设环境声音来自所有方向的强度相等。对于大多数人来说,这种技术可以在某些虚拟环境中产生相当令人信服的3D声音。最终,对虚拟房间的更真实的声学模拟将不断发展,在更大范围的挑战性环境中提高音频体验的真实性。

我们希望在几年之内,研究人员将为篮球比赛或音乐会的VR流创建令人信服的3D音频体验。然后,最大的挑战将是微调HRTF算法,以便将计算和内存要求降低到可以在便携式电池供电设备上运行的程度。一旦克服了最后的障碍,虚拟现实的沉浸式3D音频将为大规模采用做好准备。

在不到十年的时间里,具有头部跟踪功能的头戴式3D音频将允许我们进行远程会议,你可以在在一个实际的房间里走动,缩在沙发一角时,还可以与一个或几个同事进行讨论。我们将坐在NBA总决赛中场边,也能在维也纳Musikverein的最佳座位上欣赏Johann Strauss Jr.的音乐,这一切都不再是幻想!

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐