Anthropic publie Constitutional Classifiers++ : Combat Universal Jailbreaks avec environ 1 % de la surcharge de puissance de calcul

Informations sur l’IA • Admin • 10/01/2026 • 69 vues

Le 9 janvier 2026, Anthropic a publié des articles et des articles de recherche pour lancer les « Next-generation Constitutional Classifiers » (également appelés Constitutional Classifiers++) afin d’améliorer l’efficacité de protection des grands modèles contre les attaques « jailbreak généraux ». Les responsables ont indiqué que le nouveau système réduit la surcharge de puissance de calcul supplémentaire à environ 1 % lors du déploiement en production, réduit le taux de rejet à 0,05 % pour les demandes inoffensives, et n’a pas trouvé de solution universelle de jailbreak qui fonctionne de manière stable dans ses tests et dans le red teaming de l’attaque et de la défense.

Le cœur du schéma est une ligne de défense combinée : le classificateur « échange de conversation » est utilisé pour placer les entrées et sorties dans le même contexte, puis une structure en cascade en deux étapes est utilisée pour couvrir toutes les conversations avec un écran lumineux, et seul le contenu suspect est amélioré vers un classificateur plus fort. L’étude a également souligné que l’ancien système sera toujours utilisé par deux types de techniques : les « attaques de refactorisation » qui décomposent des informations nuisibles en fragments apparemment inoffensifs et les recomposent, et « l’obfuscation de la sortie » qui utilise des métaphores et des mots de remplacement pour faire paraître la sortie inoffensive.

FAQ

Q : Que résolvent principalement les Classification constitutionnelles d’Anthropic ?

R : Le système est orienté vers une protection de sécurité de grands modèles, en se concentrant sur la réduction du taux de réussite du « jailbreak universel » en contournant les garde-fous, tout en contrôlant les coûts et les faux refus.

Q : Où sont les améliorations dans Constitutional Listifiers++ par rapport à la génération précédente ?

R : Le principal changement consiste à utiliser l’entrée et la sortie comme la même discrimination conjointe « d’échange », et à utiliser une intégration en cascade et sonde en deux étapes pour réduire la surcharge de puissance de calcul et le rejet inoffensif.

Q : Que signifie l’étude par « évasion universelle » ?

R : Il s’agit d’un ensemble de stratégies d’attaque capables de contourner de manière stable les mécanismes de sécurité sur diverses questions et d’inciter continuellement le modèle à produire du contenu restreint.

Q : À quoi les entreprises ou les développeurs doivent-ils prêter attention lorsqu’ils accèdent à ce type de classificateur de sécurité ?

R : L’impact des faux refus sur les processus métier, la gestion de conformité des journaux de conversation et des données sensibles, ainsi que les risques résiduels causés par une couverture insuffisante du red teaming doivent encore être évalués.

Anthropic publie Constitutional Classifiers++ : Combat Universal Jailbreaks avec environ 1 % de la surcharge de puissance de calcul

Articles connexes

Google Vids améliore les humains virtuels IA : des pilotes Veo 3.1 pour des formes et expressions des lèvres plus réalistes

Bulletin d’information IA 24h/24 : la fabrication de l’IA+ s’accélère, le côté terminal CES et l’atterrissage des robots accélèrent

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Anthropic publie Constitutional Classifiers++ : Combat Universal Jailbreaks avec environ 1 % de la surcharge de puissance de calcul

Articles connexes

Google Vids améliore les humains virtuels IA : des pilotes Veo 3.1 pour des formes et expressions des lèvres plus réalistes

Bulletin d’information IA 24h/24 : la fabrication de l’IA+ s’accélère, le côté terminal CES et l’atterrissage des robots accélèrent

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission