Meta는 SAM Audio(SAM-Audio)를 출시했으며, 이는 복잡한 믹스에서 특정 사운드를 신속히 분리하고 편집하는 것을 목표로 하는 '통합된' 오디오 세그멘테이션 및 편집 AI 모델로 자리매김했습니다. 일반적인 사용 사례로는 밴드 영상에서 기타나 보컬을 개별적으로 추출하거나, 야외 교통 소음을 필터링하거나, 팟캐스트에서 개 짖는 소리와 같은 방해 요소를 제거하는 것이 있습니다.
SAM 오디오의 인터랙티브 방식은 "인간의 직관적 프롬프트"를 강조하며, 겹쳐 둘 수 있는 세 가지 유형의 프롬프트를 지원합니다: 텍스트 프롬프트(예: "개 짖는 소리"와 "노래하는 목소리" 타이핑), 시각적 프롬프트(비디오 화면에서 소리를 내는 사람이나 물체를 클릭해 소리 소스를 잠그기), 그리고 시간 표시 프롬프트(일정 시간 내에 나타나는 목표 소리를 표시). Meta는 또한 온라인 데모 포털인 Segment Anything Playground를 제공하여 사용자가 플랫폼 자료를 사용하거나 자신의 오디오 및 비디오를 업로드하여 모델 기능을 경험할 수 있고, 모델 다운로드와 로컬 추론을 열어줍니다.
오픈 소스 및 생태학 측면에서 공식 저장소는 추론 코드와 샘플 노트북을 제공하며, 여러 크기(소형/기본형/대형)의 모델 가중치와 더 강력한 시각적 프롬프트 성능을 가진 변형 모델도 공개합니다. 이 단계에서는 프롬프트 형식이 주로 텍스트, 그림, 시간으로 구성되어 있으며, "유사한 소리 소스" 시나리오에서는 세밀한 분리가 여전히 제한적일 수 있음을 유의해야 합니다. 상업적 제작, 저작권 오디오, 캐릭터 사운드에 관해서는 라이선스, 규정 준수, 최종 사운드 안정성 위험도 평가해야 합니다.
자주 묻는
질문: SAM 오디오는 어떤 종류의 모델인가요?
A: SAM 오디오는 오디오 분리 및 편집을 위한 통합 AI 모델로, 복잡한 혼합 오디오에서 목표 사운드를 분리하고 편집 가능한 결과를 출력합니다.
Q: SAM 오디오가 소리를 찾는 데 어떤 단서를 지원하나요?
A: SAM 오디오는 텍스트 프롬프트, 시각적 프롬프트(비디오 화면에서 사운드 오브젝트 클릭), 시간 프롬프트를 지원하며 여러 프롬프트를 결합할 수 있습니다.
Q: SAM 오디오는 어떤 창작 및 후반 작업 시나리오에 적합한가요?
A: SAM 오디오에서 흔히 사용되는 시나리오로는 악기/보컬 트랙 분할, 야외 녹음 노이즈 감소, 팟캐스트 노이즈 제거, 비디오 후반 작업 사운드 소스 향상 등이 있습니다.
Q: 세그먼트 애니씽 플레이그라운드는 무엇을 할 수 있나요?
A: Segment Anything Playground는 샘플 자료나 업로드된 오디오와 비디오를 사용해 SAM Audio의 분리 및 편집 기능을 테스트할 수 있는 온라인 경험 포털을 제공하며, 구체적인 기능과 사용 범위는 페이지 규칙에 따라 달라집니다.
Q: SAM Audio의 오픈 소스 가중치는 어떻게 얻고 사용할 수 있나요?
A: SAM Audio는 오픈 소스 추론 코드와 다차원 가중치를 제공하며, 일부는 모델 호스팅 플랫폼이 접근 권한을 요구한 후에 다운로드할 수 있습니다.