MetaはSAM Audio(SAM-Audio)を立ち上げました。これは「統一された」音声セグメンテーションおよび編集AIモデルとして位置づけられ、複雑なミックスで特定の音を迅速に分離・編集することを目標としています。 典型的なユースケースには、バンドのビデオからギターやボーカルを個別に抽出すること、屋外の交通雑音のフィルタリング、ポッドキャストの犬の吠え声などの気を散らす要素の除去などがあります。
SAM Audioのインタラクティブなアプローチは「人間直感的なプロンプト」を強調し、重ね合わせ可能な3種類のプロンプトをサポートしています:テキストプロンプト(「犬の吠える声」や「歌う声」と入力する)、視覚的なプロンプト(映像画面で音を出している人や物をクリックして音源をロック)、そしてタイムペリオクトプロンプト(一定時間内に現れるターゲット音をマークする)。 Metaはまた、オンラインデモポータル「Segment Anything Playground」を提供しており、ユーザーはプラットフォーム素材を使ってモデルの機能を体験したり、自分の音声・映像をアップロードしたり、モデルダウンロードやローカル推論を開放できます。
オープンソースおよび環境学的側面では、公式リポジトリは推論コードやサンプルノートブックを提供し、複数のサイズ(小・ベース・大)のモデル重みや、より強力な視覚的プロンプト性能を持つバリアントも公開しています。 この段階では、プロンプト形式は主にテキスト、画像、時間軸で構成されており、「類似した音源」のシナリオでは細かい分離がまだ制限されている可能性があることに注意が必要です。 商業制作、著作権のある音声、キャラクターの音声に関しては、ライセンス、コンプライアンス、最終的な音の安定性リスクも評価すべきです。
よくある質問:
SAM Audioはどのようなモデルですか?
A: SAM Audioは音声分離と編集のための統一AIモデルで、ターゲット音を複雑なミックス音声から分離し、編集可能な結果を出力します。
Q: SAM Audioは音の特定にどんな手がかりをサポートしていますか?
A: SAM Audioはテキストプロンプト、ビジュアルプロンプト(ビデオ画面の音声オブジェクトをクリック)、時間軸プロンプトをサポートし、複数のプロンプトを組み合わせることも可能です。
Q: SAM Audioはどのようなクリエイティブやポストプロダクションのシナリオに適していますか?
A: SAM Audioでよく見られるシナリオには、楽器・ボーカルトラックの分割、屋外録音によるノイズリダクション、ポッドキャストのノイズ除去、ビデオのポストプロダクション音源強化などがあります。
Q: セグメント・エニシング・プレイグラウンドは何ができますか?
A: Segment Anything Playgroundは、サンプル素材やアップロードされた音声・映像を使ってSAM Audioの分離や編集機能をテストできるオンライン体験ポータルを提供しています。具体的な機能や使用範囲はページルールに従います。
Q: SAM Audioのオープンソースウェイトはどのように入手・利用できますか?
A: SAM Audioはオープンソースの推論コードと多次元重みを提供しており、その一部はモデルホスティングプラットフォームがアクセス権限を必要とする後にダウンロードされる場合があります。