Retour à L’IA est open source
Qwen3Guard est désormais entièrement open source : un double framework pour l'alignement de sécurité et la protection contre les inférences

Qwen3Guard est désormais entièrement open source : un double framework pour l'alignement de sécurité et la protection contre les inférences

L’IA est open source Admin 186 vues

I. Résumé

Qwen3Guard est un système de protection de sécurité open source lancé par l'équipe Alibaba Cloud Qwen. Il est conçu pour améliorer la sécurité des grands modèles de langage, tant lors de l'inférence que de la sortie. Ce système comprend le modèle d'alignement d'apprentissage par renforcement Qwen3-4B-SafeRL et le benchmark d'évaluation Qwen3GuardTest . Le modèle Qwen3-4B-SafeRL exploite les retours de sécurité de Qwen3Guard-Gen-4B pour l'apprentissage par renforcement, améliorant ainsi le score de sécurité du benchmark WildJailbreak de 64,7 % à 98,1 % sans compromettre les performances générales. Qwen3GuardTest couvre deux scénarios : « Classification de sécurité par raisonnement en chaîne » et « Examen de la génération en continu », offrant ainsi aux chercheurs un cadre de test standardisé.

2. Fonctionnalités principales

  1. Apprentissage par renforcement sûr (SafeRL) : combine des signaux de rétroaction de sécurité avec un mécanisme de récompense hybride pour équilibrer la sécurité, l'utilité et le taux de rejet.
  2. Protection du raisonnement intermédiaire : Qwen3GuardTest prend en charge la classification de sécurité et le filtrage du contenu de la chaîne de pensée du modèle.
  3. Surveillance de la sortie en continu : le modèle Guard-Stream peut effectuer une identification dynamique des risques au stade de la génération du jeton.
  4. Couverture de sécurité multilingue : prend en charge la classification et la détection de sécurité dans 119 langues et dialectes.
  5. Cadre d’évaluation reproductible : les ensembles de données ouverts et les systèmes d’indicateurs permettent aux chercheurs de mener plus facilement des expériences d’alignement de la sécurité des modèles.

3. Installation

  1. Chargement du modèle
pip install transformers accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-4B-SafeRL")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-4B-SafeRL")
  1. Ensemble de données d'évaluation
from datasets import load_dataset
ds = load_dataset("Qwen/Qwen3GuardTest")
  1. Compatibilité de raisonnement : prend en charge SGLang (≥0.4.6.post1) et vLLM (≥0.8.5) et peut accéder à l'interface API OpenAI.

Cas d'utilisation typiques

  1. Recherche sur l’alignement de la sécurité : analyser les effets et les compromis de l’apprentissage par renforcement dans l’optimisation de la sécurité.
  2. Système d'examen en temps réel : combiné au modèle Guard-Stream, il effectue une inspection jeton par jeton sur la sortie en streaming.
  3. Déploiement en entreprise : fournir une couche de sécurité pour les chatbots et les plateformes de génération de contenu.
  4. Évaluation académique : utilisez Qwen3GuardTest pour effectuer une comparaison de sécurité unifiée de différents modèles d’architecture.

5. Écosystème et produits compétitifs

  1. Écosystème : Compatible avec le système de modèle principal Qwen3, il peut être directement utilisé pour le renforcement de la sécurité des Qwen3-4B, 7B, 72B et autres versions.
  2. Concurrents : Comparé à des solutions telles que OpenAI Moderation et Anthropic Constitutional AI, Qwen3Guard offre un contrôle plus précis de la protection des inférences intermédiaires et de la surveillance du streaming.

VI. Limitations et précautions

  1. La formation SafeRL nécessite beaucoup de ressources informatiques et a des exigences matérielles élevées.
  2. Qwen3GuardTest est actuellement principalement en anglais et ses performances multilingues nécessitent une vérification supplémentaire.
  3. L’alignement de l’apprentissage par renforcement peut entraîner de légères fluctuations de performance dans les tâches extrêmes.
  4. Des contraintes de sécurité excessives peuvent conduire au phénomène de « trop de rejets » et les paramètres de la politique doivent être pesés.

7. Adresse du projet

https://github.com/QwenLM/Qwen3Guard

8. Questions fréquemment posées

Q : Quelle est la différence entre les modèles Qwen3-4B-SafeRL et RLHF ordinaires ?

A : SafeRL considère le retour d’information sur la sécurité comme son objectif d’optimisation principal et établit un équilibre entre sécurité et utilité grâce à des récompenses hybrides.

Q : Le Qwen3GuardTest est-il applicable aux modèles autres que ceux de la série Qwen ?

R : Oui, les données et les mesures de référence sont conçues pour être universelles et peuvent être utilisées pour évaluer les performances de sécurité d’autres modèles de langage.

Q : Le modèle SafeRL peut-il être utilisé hors ligne ?

R : Vous pouvez charger les poids Hugging Face ou ModelScope localement et les exécuter hors ligne.

Q : Guard-Stream peut-il interrompre la sortie des risques en temps réel ?

R : Chaque jeton peut être classé en temps réel pendant la phase d’inférence, et la sortie peut être immédiatement bloquée ou remplacée lorsque des risques sont découverts.

Qwen3Guard Open Source Système de sécurité Qwen3Guard Qwen3GuardSafeRL Alignement de sécurité Qwen3Guard Récompenses mixtes Qwen3Guard Optimisation du taux de rejet de Qwen3Guard Protection de la chaîne de pensée Qwen3Guard Sécurité Qwen3GuardCoT Surveillance du streaming Qwen3Guard Qwen3GuardGuardStream Détection jeton par jeton Qwen3Guard Couverture multilingue Qwen3Guard Qwen3Guard119 Langue Tests Qwen3Guard Test de référence Qwen3Guard Téléchargement du jeu de données Qwen3Guard Guide d'installation de Qwen3Guard Qwen3GuardHuggingFace Portée du modèle Qwen3Guard Compatible avec Qwen3GuardSGLang Compatible avec Qwen3GuardvLLM API OpenAI de Qwen3Guard Déploiement de Qwen3Guard Enterprise Test de Qwen3Guard Live Sécurité du contenu Qwen3Guard Conformité générative Qwen3Guard Commentaires sur la sécurité de Qwen3Guard Comparaison entre Qwen3Guard et RLHF Qwen3GuardWildJailbreak98_1 Qwen3Guard performances sans perte Recherche sur la sécurité Qwen3Guard Examen académique de Qwen3Guard Renforcement du modèle Qwen3Guard Qwen3GuardQwen3_4B_SafeRL Qwen3GuardCompatible avec la série Qwen3 Sécurité d'inférence sur l'appareil Qwen3Guard Blocage des risques Qwen3Guard Traces d'audit Qwen3Guard Test de raisonnement intermédiaire Qwen3Guard Test de la sortie de streaming Qwen3Guard Contrôle précis Qwen3Guard Système d'index de sécurité Qwen3Guard Compromis coût-puissance de Qwen3Guard Fluctuation extrême des tâches Qwen3Guard Mise en œuvre de la conformité d'entreprise Qwen3Guard Protection du chatbot Qwen3Guard Passerelle de contenu Qwen3Guard Écosystème de recherche et développement Qwen3Guard Modération Qwen3Guard vs. OpenAI Qwen3Guard contre ConstitutionalAI

Outils Recommandés

Plus