SAM Audio上线Segment Anything Playground：从混合音轨中提取任意声音元素

AI资讯 • Admin • 2025/12/17 • 178 次浏览

Meta推出SAM Audio（SAM-Audio），定位为“统一式”音频分割与编辑AI模型，目标是在复杂混音中按提示隔离并编辑特定声音。典型用例包括：在乐队演出视频中单独提取吉他或人声、过滤户外交通噪声、从播客里去除狗叫等干扰音。

SAM Audio的交互方式强调“人类直觉式提示”，支持三类提示并可叠加：文本提示（如输入“dog barking”“singing voice”）、视觉提示（在视频画面中点选正在发声的人或物体以锁定声源）、时间段提示（标注某段时间范围内出现的目标声音）。Meta同时提供在线演示入口Segment Anything Playground，允许使用平台素材或上传自有音视频体验模型能力，并开放模型下载与本地推理。

在开源与生态侧，官方仓库提供推理代码与示例笔记本，并发布多个尺寸的模型权重（small/base/large），另有面向视觉提示表现更强的变体。需要注意的是，现阶段提示形态以文本、画面与时间段为主，细粒度分离在“相似声源”场景下仍可能受限；涉及商业制作、版权音频与人物声音时，也应评估授权、合规与最终音质稳定性风险。

常见问题

Q：SAM Audio是什么类型的模型？

A：SAM Audio是面向音频分离与编辑的统一式AI模型，可从复杂混合音频中隔离目标声音并输出可编辑结果。

Q：SAM Audio支持哪些提示方式来定位声音？

A：SAM Audio支持文本提示、视觉提示（点选视频画面中的发声对象）与时间段提示，并可将多种提示组合使用。

Q：SAM Audio适合哪些创作与后期场景？

A：SAM Audio常见场景包括乐器/人声分轨、户外录音降噪、播客去杂音、视频后期声源强化等。

Q：Segment Anything Playground能做什么？

A：Segment Anything Playground提供在线体验入口，可使用示例素材或上传音视频测试SAM Audio的分离与编辑能力，具体功能与使用范围以页面规则为准。

Q：SAM Audio开源权重如何获取与使用？

A：SAM Audio提供开源推理代码与多尺寸权重，部分权重在模型托管平台可能需要申请访问权限后下载使用。

SAM Audio上线Segment Anything Playground：从混合音轨中提取任意声音元素

相关文章

OpenAI发布新旗舰图像模型：ChatGPT Images与GPT Image 1.5同步推出

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

Google 发布 SensorFM：可穿戴健康 AI 开始学习长期生理数据

推荐工具

SAM Audio上线Segment Anything Playground：从混合音轨中提取任意声音元素

相关文章

OpenAI发布新旗舰图像模型：ChatGPT Images与GPT Image 1.5同步推出

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

Google 发布 SensorFM：可穿戴健康 AI 开始学习长期生理数据

推荐工具

提交AI工具

请确认提交信息