Meta推出SAM Audio(SAM-Audio),定位为“统一式”音频分割与编辑AI模型,目标是在复杂混音中按提示隔离并编辑特定声音。典型用例包括:在乐队演出视频中单独提取吉他或人声、过滤户外交通噪声、从播客里去除狗叫等干扰音。
SAM Audio的交互方式强调“人类直觉式提示”,支持三类提示并可叠加:文本提示(如输入“dog barking”“singing voice”)、视觉提示(在视频画面中点选正在发声的人或物体以锁定声源)、时间段提示(标注某段时间范围内出现的目标声音)。Meta同时提供在线演示入口Segment Anything Playground,允许使用平台素材或上传自有音视频体验模型能力,并开放模型下载与本地推理。
在开源与生态侧,官方仓库提供推理代码与示例笔记本,并发布多个尺寸的模型权重(small/base/large),另有面向视觉提示表现更强的变体。需要注意的是,现阶段提示形态以文本、画面与时间段为主,细粒度分离在“相似声源”场景下仍可能受限;涉及商业制作、版权音频与人物声音时,也应评估授权、合规与最终音质稳定性风险。
常见问题
Q:SAM Audio是什么类型的模型?
A:SAM Audio是面向音频分离与编辑的统一式AI模型,可从复杂混合音频中隔离目标声音并输出可编辑结果。
Q:SAM Audio支持哪些提示方式来定位声音?
A:SAM Audio支持文本提示、视觉提示(点选视频画面中的发声对象)与时间段提示,并可将多种提示组合使用。
Q:SAM Audio适合哪些创作与后期场景?
A:SAM Audio常见场景包括乐器/人声分轨、户外录音降噪、播客去杂音、视频后期声源强化等。
Q:Segment Anything Playground能做什么?
A:Segment Anything Playground提供在线体验入口,可使用示例素材或上传音视频测试SAM Audio的分离与编辑能力,具体功能与使用范围以页面规则为准。
Q:SAM Audio开源权重如何获取与使用?
A:SAM Audio提供开源推理代码与多尺寸权重,部分权重在模型托管平台可能需要申请访问权限后下载使用。