最近,通义实验室语音团队在空间音频生成领域取得了突破性进展!他们推出了一项名为OmniAudio的技术,可以直接从360°视频生成FOA(First-order Ambisonics)格式的空间音频。这项技术为虚拟现实和沉浸式娱乐体验带来了全新的可能性。
空间音频作为模拟真实听觉环境的核心技术,一直是提升沉浸感的关键。然而,目前大多数技术仅基于固定视角的视频,对360°全景视频中的空间信息利用不足。而传统的视频到音频生成技术大多只能生成非空间音频,无法满足沉浸式体验对3D声音定位的需求。随着360°摄像头的普及和虚拟现实技术的发展,如何从全景视频中生成匹配的空间音频成为了一个亟待解决的问题。
为此,通义实验室提出了360V2SA任务,旨在将360°视频转化为高精度的空间音频。FOA作为一种标准的3D空间音频格式,通过四个通道(W、X、Y、Z)表示声音方向,能够实现真实的3D音频再现,并在头部旋转时保持声音定位的准确性。
为了支持这一任务,研究团队构建了Sphere360数据集,包含超过103,000个真实世界视频片段,涵盖288种音频事件,总时长达到288小时。这些数据不仅包含360°视觉内容,还支持FOA音频,为模型训练提供了宝贵的资源。
OmniAudio的训练方法分为两个阶段:第一阶段是自监督的coarse-to-fine流匹配预训练,利用大规模非空间音频资源进行伪FOA转换;第二阶段是有监督微调,结合双分支视频编码器进一步优化模型性能。实验结果显示,OmniAudio在多个测试集上的表现显著优于现有基线,在主观和客观评估中均表现出色。
项目主页:
https://omniaudio-360v2sa.github.io/
代码和数据开源仓库:
https://github.com/liuhuadai/OmniAudio
论文地址:
https://arxiv.org/abs/2504.14906
[hhw123pingdao]
- 请注意,下载的资源可能包含广告宣传。本站不对此提供任何担保,请用户自行甄别。
- 任何资源严禁网盘中解压缩,一经发现删除会员资格封禁IP,感谢配合。
- 压缩格式:支持 Zip、7z、Rar 等常见格式。请注意,下载后部分资源可能需要更改扩展名才能成功解压。
- 本站用户禁止分享任何违反国家法律规定的相关影像资料。
- 内容来源于网络,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理,联系微信:a-000000
📝留言定制 (0)