Le 9 janvier 2026, Anthropic a publié des articles et des articles de recherche pour lancer les « Next-generation Constitutional Classifiers » (également appelés Constitutional Classifiers++) afin d’améliorer l’efficacité de protection des grands modèles contre les attaques « jailbreak généraux ». Les responsables ont indiqué que le nouveau système réduit la surcharge de puissance de calcul supplémentaire à environ 1 % lors du déploiement en production, réduit le taux de rejet à 0,05 % pour les demandes inoffensives, et n’a pas trouvé de solution universelle de jailbreak qui fonctionne de manière stable dans ses tests et dans le red teaming de l’attaque et de la défense.
Le cœur du schéma est une ligne de défense combinée : le classificateur « échange de conversation » est utilisé pour placer les entrées et sorties dans le même contexte, puis une structure en cascade en deux étapes est utilisée pour couvrir toutes les conversations avec un écran lumineux, et seul le contenu suspect est amélioré vers un classificateur plus fort. L’étude a également souligné que l’ancien système sera toujours utilisé par deux types de techniques : les « attaques de refactorisation » qui décomposent des informations nuisibles en fragments apparemment inoffensifs et les recomposent, et « l’obfuscation de la sortie » qui utilise des métaphores et des mots de remplacement pour faire paraître la sortie inoffensive.
FAQ
Q : Que résolvent principalement les Classification constitutionnelles d’Anthropic ?
R : Le système est orienté vers une protection de sécurité de grands modèles, en se concentrant sur la réduction du taux de réussite du « jailbreak universel » en contournant les garde-fous, tout en contrôlant les coûts et les faux refus.
Q : Où sont les améliorations dans Constitutional Listifiers++ par rapport à la génération précédente ?
R : Le principal changement consiste à utiliser l’entrée et la sortie comme la même discrimination conjointe « d’échange », et à utiliser une intégration en cascade et sonde en deux étapes pour réduire la surcharge de puissance de calcul et le rejet inoffensif.
Q : Que signifie l’étude par « évasion universelle » ?
R : Il s’agit d’un ensemble de stratégies d’attaque capables de contourner de manière stable les mécanismes de sécurité sur diverses questions et d’inciter continuellement le modèle à produire du contenu restreint.
Q : À quoi les entreprises ou les développeurs doivent-ils prêter attention lorsqu’ils accèdent à ce type de classificateur de sécurité ?
R : L’impact des faux refus sur les processus métier, la gestion de conformité des journaux de conversation et des données sensibles, ainsi que les risques résiduels causés par une couverture insuffisante du red teaming doivent encore être évalués.