Meta 推出 AI 音频模型 Audiobox:支持语音及文字同时输入、可生成多层次声音
发表于:2025-11-14 作者:千家信息网编辑
千家信息网最后更新 2025年11月14日,CTOnews.com 12 月 4 日消息,Meta 日前推出了一款 AI 声音生成模型 Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。据悉,
千家信息网最后更新 2025年11月14日Meta 推出 AI 音频模型 Audiobox:支持语音及文字同时输入、可生成多层次声音
CTOnews.com 12 月 4 日消息,Meta 日前推出了一款 AI 声音生成模型 Audiobox,能够同时接收语音及文字输入,用户可同时使用语音及文字描述,让这款模型生成所需的音频。
据悉,这款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型,据称 Audiobox 能生成各种环境音、自然对话语音,并整合了音频生成和编辑能力,以便于用户自由生成自己所需的音频。
Meta 介绍称,生成高品质音频需要有大量音频库及深厚的领域知识,但大众难以获得这些资源,而该公司推出这个模型旨在降低声音生成门槛,让任何人都更容易制作视频、游戏等应用场景的音效。
CTOnews.com发现,这款 Audiobox 模型基于 Voicebox 的"引导声音"机制,以便于生成目标音频,并配合"流量比对(flow-matching)"扩散模型生成方法,以实现"声音填充(audio infilling)"功能,从而生成多层次的音频。
Meta 测试生成带有雷暴声的下雨音频,并输入一系列提示句进行演示,例如"流水声伴随鸟鸣"、"以高音调快节奏说话的年轻女性"等;同时测试了同时输入人声及文字提示,以生成带有情绪("哀痛而缓慢")并拥有背景音(身处教堂)的语音。
Meta 声称,Audiobox 在音质及"生成内容的准确度" 顺利击败了 AudioLDM2、VoiceLDM 及 TANGO,超越了现有最佳的音频生成模型。
目前 Audiobox 已经开放向特定研究人员及学术界试用,以供测试模型品质及安全性,Meta 声称,他们计划"再过几周将社会全面公开该模型"。
生成
模型
音频
声音
语音
同时
文字
输入
测试
用户
提示
多层
多层次
深厚
缓慢
哀痛
人员
人声
以高
准确度
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发的简单蓝图
java连接数据库好处
临沂互联网科技有限公司
选修3网络技术应用会考卷子
东华软件开发技术团队构成
广电总局网络技术研究所
九江天浩网络技术有限公司
系统集成和网络安全
基建项目管理软件开发
二级数据库一个星期
数据库产生标志
高青模具软件开发咨询
《网络安全法》网民 遵守
疫情详细的数据库
redis淘汰前存储数据库
计算机软件开发公司和信息化
linux服务器测速
意识形态和网络安全工作汇报
有关计算机网络技术的英文书籍
松江区信息网络技术应用
中学生关于网络安全知识
中国通信网络技术有限公司
软件开发师职业认知小结
行业类软件开发
为什么网络安全法施行不打击骚扰
我的世界如何进入服务器小游戏
时序数据库的公司
渝北软件开发报价
近五年网络安全大事件和看法
联想服务器rs260参数
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售