OmniAudio：从360°视频生成空间音频-Ai对话笔记

最近，通义实验室语音团队在空间音频生成领域取得了突破性进展！他们推出了一项名为OmniAudio的技术，可以直接从360°视频生成FOA（First-order Ambisonics）格式的空间音频。这项技术为虚拟现实和沉浸式娱乐体验带来了全新的可能性。

空间音频作为模拟真实听觉环境的核心技术，一直是提升沉浸感的关键。然而，目前大多数技术仅基于固定视角的视频，对360°全景视频中的空间信息利用不足。而传统的视频到音频生成技术大多只能生成非空间音频，无法满足沉浸式体验对3D声音定位的需求。随着360°摄像头的普及和虚拟现实技术的发展，如何从全景视频中生成匹配的空间音频成为了一个亟待解决的问题。

为此，通义实验室提出了360V2SA任务，旨在将360°视频转化为高精度的空间音频。FOA作为一种标准的3D空间音频格式，通过四个通道（W、X、Y、Z）表示声音方向，能够实现真实的3D音频再现，并在头部旋转时保持声音定位的准确性。

为了支持这一任务，研究团队构建了Sphere360数据集，包含超过103,000个真实世界视频片段，涵盖288种音频事件，总时长达到288小时。这些数据不仅包含360°视觉内容，还支持FOA音频，为模型训练提供了宝贵的资源。

OmniAudio的训练方法分为两个阶段：第一阶段是自监督的coarse-to-fine流匹配预训练，利用大规模非空间音频资源进行伪FOA转换；第二阶段是有监督微调，结合双分支视频编码器进一步优化模型性能。实验结果显示，OmniAudio在多个测试集上的表现显著优于现有基线，在主观和客观评估中均表现出色。

项目主页：

https://omniaudio-360v2sa.github.io/

代码和数据开源仓库：

https://github.com/liuhuadai/OmniAudio

论文地址：

https://arxiv.org/abs/2504.14906

[hhw123pingdao]

温馨提示：

请注意，下载的资源可能包含广告宣传。本站不对此提供任何担保，请用户自行甄别。
任何资源严禁网盘中解压缩，一经发现删除会员资格封禁IP，感谢配合。
压缩格式：支持 Zip、7z、Rar 等常见格式。请注意，下载后部分资源可能需要更改扩展名才能成功解压。

声明：

本站用户禁止分享任何违反国家法律规定的相关影像资料。
内容来源于网络，如若本站内容侵犯了原著者的合法权益，可联系我们进行处理，联系微信：a-000000

OmniAudio：从360°视频生成空间音频

📝留言定制 (0)

对本素材感兴趣留言定制获取你的专属素材取消回复

热门

🌎外贸独立站分享+报价

✅298元搭建优秀小程序

🌐APP定制开发报价

🔥999元-高端商场小程序

🌟298元-打造一个完美线上商城