I. Résumé
Qwen3Guard est un système de protection de sécurité open source lancé par l'équipe Alibaba Cloud Qwen. Il est conçu pour améliorer la sécurité des grands modèles de langage, tant lors de l'inférence que de la sortie. Ce système comprend le modèle d'alignement d'apprentissage par renforcement Qwen3-4B-SafeRL et le benchmark d'évaluation Qwen3GuardTest . Le modèle Qwen3-4B-SafeRL exploite les retours de sécurité de Qwen3Guard-Gen-4B pour l'apprentissage par renforcement, améliorant ainsi le score de sécurité du benchmark WildJailbreak de 64,7 % à 98,1 % sans compromettre les performances générales. Qwen3GuardTest couvre deux scénarios : « Classification de sécurité par raisonnement en chaîne » et « Examen de la génération en continu », offrant ainsi aux chercheurs un cadre de test standardisé.
2. Fonctionnalités principales
- Apprentissage par renforcement sûr (SafeRL) : combine des signaux de rétroaction de sécurité avec un mécanisme de récompense hybride pour équilibrer la sécurité, l'utilité et le taux de rejet.
- Protection du raisonnement intermédiaire : Qwen3GuardTest prend en charge la classification de sécurité et le filtrage du contenu de la chaîne de pensée du modèle.
- Surveillance de la sortie en continu : le modèle Guard-Stream peut effectuer une identification dynamique des risques au stade de la génération du jeton.
- Couverture de sécurité multilingue : prend en charge la classification et la détection de sécurité dans 119 langues et dialectes.
- Cadre d’évaluation reproductible : les ensembles de données ouverts et les systèmes d’indicateurs permettent aux chercheurs de mener plus facilement des expériences d’alignement de la sécurité des modèles.
3. Installation
- Chargement du modèle
pip install transformers accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-4B-SafeRL")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-4B-SafeRL")
- Ensemble de données d'évaluation
from datasets import load_dataset
ds = load_dataset("Qwen/Qwen3GuardTest")
- Compatibilité de raisonnement : prend en charge SGLang (≥0.4.6.post1) et vLLM (≥0.8.5) et peut accéder à l'interface API OpenAI.
Cas d'utilisation typiques
- Recherche sur l’alignement de la sécurité : analyser les effets et les compromis de l’apprentissage par renforcement dans l’optimisation de la sécurité.
- Système d'examen en temps réel : combiné au modèle Guard-Stream, il effectue une inspection jeton par jeton sur la sortie en streaming.
- Déploiement en entreprise : fournir une couche de sécurité pour les chatbots et les plateformes de génération de contenu.
- Évaluation académique : utilisez Qwen3GuardTest pour effectuer une comparaison de sécurité unifiée de différents modèles d’architecture.
5. Écosystème et produits compétitifs
- Écosystème : Compatible avec le système de modèle principal Qwen3, il peut être directement utilisé pour le renforcement de la sécurité des Qwen3-4B, 7B, 72B et autres versions.
- Concurrents : Comparé à des solutions telles que OpenAI Moderation et Anthropic Constitutional AI, Qwen3Guard offre un contrôle plus précis de la protection des inférences intermédiaires et de la surveillance du streaming.
VI. Limitations et précautions
- La formation SafeRL nécessite beaucoup de ressources informatiques et a des exigences matérielles élevées.
- Qwen3GuardTest est actuellement principalement en anglais et ses performances multilingues nécessitent une vérification supplémentaire.
- L’alignement de l’apprentissage par renforcement peut entraîner de légères fluctuations de performance dans les tâches extrêmes.
- Des contraintes de sécurité excessives peuvent conduire au phénomène de « trop de rejets » et les paramètres de la politique doivent être pesés.
7. Adresse du projet
https://github.com/QwenLM/Qwen3Guard
8. Questions fréquemment posées
Q : Quelle est la différence entre les modèles Qwen3-4B-SafeRL et RLHF ordinaires ?
A : SafeRL considère le retour d’information sur la sécurité comme son objectif d’optimisation principal et établit un équilibre entre sécurité et utilité grâce à des récompenses hybrides.
Q : Le Qwen3GuardTest est-il applicable aux modèles autres que ceux de la série Qwen ?
R : Oui, les données et les mesures de référence sont conçues pour être universelles et peuvent être utilisées pour évaluer les performances de sécurité d’autres modèles de langage.
Q : Le modèle SafeRL peut-il être utilisé hors ligne ?
R : Vous pouvez charger les poids Hugging Face ou ModelScope localement et les exécuter hors ligne.
Q : Guard-Stream peut-il interrompre la sortie des risques en temps réel ?
R : Chaque jeton peut être classé en temps réel pendant la phase d’inférence, et la sortie peut être immédiatement bloquée ou remplacée lorsque des risques sont découverts.