Meta a lancé SAM Audio (SAM-Audio), positionné comme un modèle d’IA « unifié » de segmentation et d’édition audio, dans le but d’isoler et de modifier rapidement des sons spécifiques dans des mixages complexes. Les cas d’usage typiques incluent l’extraction individuelle de guitares ou de voix d’une vidéo de groupe, le filtrage du bruit de la circulation extérieure, ainsi que la suppression de distractions comme les aboiements de chiens des podcasts.
L’approche interactive de SAM Audio met l’accent sur les « prompts intuitifs humains » et prend en charge trois types d’invites qui peuvent être superposés : les prompts textuels (comme taper « dog qui aboie » et « voix chantée »), les prompts visuels (cliquer sur la personne ou l’objet qui produit un son à l’écran vidéo pour verrouiller la source sonore), et les prompts de période (marquer le son cible qui apparaît dans une certaine plage de temps). Meta propose également un portail de démonstration en ligne, Segment Anything Playground, qui permet aux utilisateurs d’expérimenter les capacités des modèles en utilisant des supports de plateforme ou en téléchargeant leur propre audio et vidéo, et ouvre les téléchargements de modèles et l’inférence locale.
Du côté open source et écologique, le dépôt officiel fournit du code d’inférence et des cahiers d’exemple, et publie des poids de modèles de plusieurs tailles (petit/base/grand), ainsi que des variantes offrant de meilleures performances de consignes visuelles. Il convient de noter qu’à ce stade, la forme de la consigne est principalement composée de texte, d’image et de période, et que la séparation fine peut encore être limitée dans le scénario de la « source sonore similaire ». En ce qui concerne la production commerciale, l’audio protégé par le droit d’auteur et les sons des personnages, vous devriez également évaluer les risques de licence, de conformité et de stabilité sonore finale.
FAQ
Q : Quel type de modèle est SAM Audio ?
R : SAM Audio est un modèle d’IA unifié pour la séparation et le montage audio, isolant le son cible de l’audio mixé complexe et produisant des résultats éditables.
Q : Quels indices SAM Audio supporte-t-il pour localiser les sons ?
R : SAM Audio prend en charge les prompts textuels, visuels (cliquez sur l’objet sonore dans l’écran vidéo) et les prompts temporels, et peut combiner plusieurs invites.
Q : À quels scénarios créatifs et de post-production SAM Audio convient-il ?
R : Les scénarios courants dans SAM Audio incluent la séparation instrument/piste vocale, la réduction du bruit en enregistrement extérieur, la suppression du bruit de podcast et l’amélioration de la source sonore en post-production vidéo.
Q : Que peut faire Segment Anything Playground ?
R : Segment Anything Playground propose un portail d’expérience en ligne où vous pouvez tester les capacités de séparation et d’édition de SAM Audio avec des échantillons de matériel ou des audios et vidéos téléchargés, et les fonctions spécifiques ainsi que le champ d’utilisation sont soumis aux règles de la page.
Q : Comment obtenir et utiliser les poids open source de SAM Audio ?
R : SAM Audio fournit du code d’inférence open source et des poids multidimensionnels, dont certains peuvent être téléchargés après que la plateforme hôte modèle nécessite des permissions d’accès.