Retour à Informations sur l’IA
Anthropic publie Constitutional Classifiers++ : Combat Universal Jailbreaks avec environ 1 % de la surcharge de puissance de calcul

Anthropic publie Constitutional Classifiers++ : Combat Universal Jailbreaks avec environ 1 % de la surcharge de puissance de calcul

Informations sur l’IA Admin 52 vues

Le 9 janvier 2026, Anthropic a publié des articles et des articles de recherche pour lancer les « Next-generation Constitutional Classifiers » (également appelés Constitutional Classifiers++) afin d’améliorer l’efficacité de protection des grands modèles contre les attaques « jailbreak généraux ». Les responsables ont indiqué que le nouveau système réduit la surcharge de puissance de calcul supplémentaire à environ 1 % lors du déploiement en production, réduit le taux de rejet à 0,05 % pour les demandes inoffensives, et n’a pas trouvé de solution universelle de jailbreak qui fonctionne de manière stable dans ses tests et dans le red teaming de l’attaque et de la défense.

Le cœur du schéma est une ligne de défense combinée : le classificateur « échange de conversation » est utilisé pour placer les entrées et sorties dans le même contexte, puis une structure en cascade en deux étapes est utilisée pour couvrir toutes les conversations avec un écran lumineux, et seul le contenu suspect est amélioré vers un classificateur plus fort. L’étude a également souligné que l’ancien système sera toujours utilisé par deux types de techniques : les « attaques de refactorisation » qui décomposent des informations nuisibles en fragments apparemment inoffensifs et les recomposent, et « l’obfuscation de la sortie » qui utilise des métaphores et des mots de remplacement pour faire paraître la sortie inoffensive.

FAQ

Q : Que résolvent principalement les Classification constitutionnelles d’Anthropic ?

R : Le système est orienté vers une protection de sécurité de grands modèles, en se concentrant sur la réduction du taux de réussite du « jailbreak universel » en contournant les garde-fous, tout en contrôlant les coûts et les faux refus.

Q : Où sont les améliorations dans Constitutional Listifiers++ par rapport à la génération précédente ?

R : Le principal changement consiste à utiliser l’entrée et la sortie comme la même discrimination conjointe « d’échange », et à utiliser une intégration en cascade et sonde en deux étapes pour réduire la surcharge de puissance de calcul et le rejet inoffensif.

Q : Que signifie l’étude par « évasion universelle » ?

R : Il s’agit d’un ensemble de stratégies d’attaque capables de contourner de manière stable les mécanismes de sécurité sur diverses questions et d’inciter continuellement le modèle à produire du contenu restreint.

Q : À quoi les entreprises ou les développeurs doivent-ils prêter attention lorsqu’ils accèdent à ce type de classificateur de sécurité ?

R : L’impact des faux refus sur les processus métier, la gestion de conformité des journaux de conversation et des données sensibles, ainsi que les risques résiduels causés par une couverture insuffisante du red teaming doivent encore être évalués.

Anthropic publie Constitutional Classifiers++ anti-jailbreak générique Anthropic affirme que Classificateurs++ reste plus sûr avec une augmentation de 1 % de la puissance de calcul Anthropic a réduit le faux rejet à 0,05 %, ce qui a provoqué une controverse autour des garde-fous Anthropique est désormais disponible sous le titre de Constitution de nouvelle génération Les classificateurs améliorent la prévention des évasions de prison Anthropic affirme qu’il n’existe pas de solution universelle stable pour l’évasion, mais il existe toujours des angles morts Anthropic utilise la discrimination d’entrée/sortie et de contexte pour réduire les vulnérabilités liées au jailbreak Les classificateurs en cascade à deux étapes d’Anthropic équilibrent le coût et le taux d’interception Anthropic introduit des sondes linéaires activées pour rendre les garde-corps plus difficiles à contourner Sonde intégrée anthropique + classificateur externe pour une meilleure détermination de la sécurité L’article d’Anthropic révèle que les anciennes garde-fous sont facilement contournées par des attaques de refactoring Anthropic souligne que la confusion de sortie peut encore pénétrer en remplaçant les mots par des métaphores Les classificateurs de test Anthropic Red Team++ n’ont pas encore été enfreints par le Jailbreak universel Anthropic déploie des Classificateurs++ en production, en se concentrant sur une faible surcharge et une haute protection Anthropic utilise l’échange de dialogues comme évaluation d’unité pour rapprocher l’évasion de prison du combat réel Anthropic améliore les garde-fous de la manche unique à l’échange de jugements pour réduire les faux positifs Pourquoi Anthropic Classifiers++ réduit le taux de rejet inoffensif à 0,05 % Les nouveaux conseils de sécurité d’Anthropic : Ce n’est que lorsque vous êtes suspect que vous améliorez un classeur puissant pour réduire les coûts Le dépistage anthropique léger couvre toute la conversation, un examen suspect puis approfondi est plus stable Anthropic affirme que Classificateurs++ est anti-jailbreak universel, mais les deux types d’attaques restent dangereux Anthropic met en garde contre les attaques de refactoring qui déguisent des fragments nuisibles en fragments inoffensifs Anthropic avertit que l’obfuscation des contenus rend le contenu apparemment inoffensif mais est en réalité illégal Comment Anthropic utilise la structure en cascade pour contrôler la surcharge des glissières de sécurité à 1 % La question de savoir si le nouveau système de garde-forme d’Anthropic peut vraiment mettre fin au jailbreaking universel est l’objectif Anthropic affirme qu’il n’existe pas de solution stable de jailbreak, mais les entreprises doivent tout de même se tester et se vérifier elles-mêmes Anthropique Classificateurs++ réduit les faux refus, mais peut passer à côté du dilemme de la citation Anthropic combine entrée et sortie pour réduire l’espace de bordure du jailbreak L’étude anthropique utilise la lecture de sonde pour l’activation interne afin de susciter des discussions sur l’interprétabilité L’article de sécurité d’Anthropic divulgue les détails de la décision d’intégration de Classificateurs++ Anthropic publie des Constitutions Classificateurs++ contre la course aux armements de l’évasion de prison Anthropic indique que la production est disponible, mais les risques de conformité au journal de conversation persistent Anthropic offre aux promoteurs des protections anti-évasion mais refuse à tort d’impacter l’entreprise Les améliorations anthropiques des garde-corps visent des jailbreaks universels pour réduire les coûts de patch post-lancement Anthropique La manière dont Classificateurs++ reconnaît les jailbreaks métaphoriques reste à tester La stratégie de classificateur en deux étapes d’Anthropic peut-elle faire face à des attaques de longue conversation ? La nouvelle garde-fouet d’Anthropic se concentre sur les rejets à faible erreur, ce qui pourrait intensifier la controverse autour de la censure Anthropic a déclaré que l’interception est plus forte, mais s’inquiète de savoir si elle est accidentellement blessée lors de la création normale L’intégration de Classificateurs++ par Anthropic dans la production soulève des préoccupations concernant la gouvernance de la vie privée La définition universelle d’Anthropic promeut la standardisation des évaluations de sécurité Anthropic soutient Classifiers++ avec une équipe rouge entre attaque et défense, mais il y a des inquiétudes concernant une couverture insuffisante Anthropic révèle une nouvelle tendance dans le jailbreak : le splitting et le refactoring sont plus difficiles à éviter qu’une balle droite Anthropic révèle une nouvelle tendance dans le jailbreak : l’obfuscation des résultats rend la modération plus difficile Les classificateurs anthropiques++ intègrent des contextes d’échange dans les jugements pour réduire les significations hors contexte Il est douteux que le nouveau système d’Anthropic puisse reproduire le rejet de 0,05 % des demandes inoffensives Anthropic revendique 1 % de la charge de calcul supplémentaire, mais le coût réel peut fluctuer selon le scénario Anthropic pousse les Classification constitutionnelles de nouvelle génération à remodeler la voie des garde-fous Pourquoi la mise à niveau de la rambarde de sécurité Anthropic introduit des sondes linéaires et des classificateurs externes Les Anthropic Classifiers++ signifient des coûts plus bas et une pression de conformité accrue pour l’accès des entreprises Anthropic a insisté sur le fait que les équipes rouges doivent encore être testées, sinon les risques résiduels risquent de revenir Le nouveau garde-corps d’Anthropic bloque en même temps le jailbreak universel met en lumière deux grandes lacunes : la refactorisation et l’obscurcissement

Outils Recommandés

Plus