Meta brachte SAM Audio (SAM-Audio) auf den Markt, das als "einheitliches" Audiosegmentierungs- und Bearbeitungs-KI-Modell positioniert ist, mit dem Ziel, spezifische Klänge zeitnah in komplexen Mixen zu isolieren und zu bearbeiten. Typische Anwendungsfälle sind das individuelle Extrahieren von Gitarren oder Gesang aus einem Bandvideo, das Filtern von Verkehrslärm im Freien sowie das Entfernen von Ablenkungen wie Hundebellen aus Podcasts.
Der interaktive Ansatz von SAM Audio betont "menschliche intuitive Prompts" und unterstützt drei Arten von Prompts, die überlagert werden können: Textprompts (wie "Hund bellt" und "singende Stimme" eingeben), visuelle Prompts (Klicken auf die Person oder das Objekt, das im Videobildschirm einen Ton erzeugt, um die Tonquelle zu sperren) und Zeitperioden-Prompts (Markierung des Zieltons, der innerhalb eines bestimmten Zeitbereichs erscheint). Meta bietet außerdem ein Online-Demoportal, Segment Anything Playground, das es Nutzern ermöglicht, Modellfunktionen mithilfe von Plattformmaterialien oder dem Hochladen eigener Audio- und Videoinhalte zu erleben und Modelldownloads sowie lokale Inferenz zu öffnen.
Auf der Open-Source- und ökologischen Seite stellt das offizielle Repository Inferenzcodes und Beispiel-Notizbücher bereit und veröffentlicht Modellgewichte verschiedener Größen (klein/basis/groß) sowie Varianten mit stärkerer visueller Prompt-Performance. Es sollte beachtet werden, dass die Eingabeform in diesem Stadium hauptsächlich aus Text, Bild und Zeitperiode besteht, und eine feinkörnige Trennung im Fall der "ähnlichen Klangquelle" noch eingeschränkt sein kann. Wenn es um kommerzielle Produktion, urheberrechtlich geschützte Audioaufnahmen und Charakterklänge geht, sollten Sie auch Lizenz-, Compliance- und Endstabilitätsrisiken bewerten.
FAQs
F: Was für ein Modell ist SAM Audio?
A: SAM Audio ist ein einheitliches KI-Modell zur Audiotrennung und -bearbeitung, das den Zielton von komplexen Mischtons isoliert und editierbare Ergebnisse liefert.
F: Welche Hinweise unterstützt SAM Audio, um Geräusche zu orten?
A: SAM Audio unterstützt Texteingaben, visuelle Eingaben (klicken Sie auf das Tonobjekt im Videobildschirm) und Zeitperioden-Eingaben und kann mehrere Eingaben kombinieren.
F: Für welche kreativen und Postproduktionsszenarien eignet sich SAM Audio?
A: Gängige Szenarien in SAM Audio sind Instrument-/Gesangsspur-Splitting, Geräuschunterdrückung im Außenbereich, Podcast-Geräuschentfernung und Video-Nachbearbeitung der Klangquelle.
F: Was kann Segment Anything Playground leisten?
A: Segment Anything Playground bietet ein Online-Erlebnisportal, in dem Sie die Trenn- und Bearbeitungsmöglichkeiten von SAM Audio mit Beispielmaterialien oder hochgeladenem Audio und Video testen können; die spezifischen Funktionen und der Anwendungsbereich unterliegen den Seitenregeln.
F: Wie können Open-Source-Gewichte von SAM Audio erhalten und verwendet werden?
A: SAM Audio bietet Open-Source-Inferenzcode und mehrdimensionale Gewichtungen, von denen einige heruntergeladen werden können, nachdem die Modell-Plattform Zugriffsrechte benötigt.