Qwen3Guard est désormais entièrement open source : un double framework pour l'alignement de sécurité et la protection contre les inférences

I. Résumé

Qwen3Guard est un système de protection de sécurité open source lancé par l'équipe Alibaba Cloud Qwen. Il est conçu pour améliorer la sécurité des grands modèles de langage, tant lors de l'inférence que de la sortie. Ce système comprend le modèle d'alignement d'apprentissage par renforcement Qwen3-4B-SafeRL et le benchmark d'évaluation Qwen3GuardTest . Le modèle Qwen3-4B-SafeRL exploite les retours de sécurité de Qwen3Guard-Gen-4B pour l'apprentissage par renforcement, améliorant ainsi le score de sécurité du benchmark WildJailbreak de 64,7 % à 98,1 % sans compromettre les performances générales. Qwen3GuardTest couvre deux scénarios : « Classification de sécurité par raisonnement en chaîne » et « Examen de la génération en continu », offrant ainsi aux chercheurs un cadre de test standardisé.

2. Fonctionnalités principales

Apprentissage par renforcement sûr (SafeRL) : combine des signaux de rétroaction de sécurité avec un mécanisme de récompense hybride pour équilibrer la sécurité, l'utilité et le taux de rejet.
Protection du raisonnement intermédiaire : Qwen3GuardTest prend en charge la classification de sécurité et le filtrage du contenu de la chaîne de pensée du modèle.
Surveillance de la sortie en continu : le modèle Guard-Stream peut effectuer une identification dynamique des risques au stade de la génération du jeton.
Couverture de sécurité multilingue : prend en charge la classification et la détection de sécurité dans 119 langues et dialectes.
Cadre d’évaluation reproductible : les ensembles de données ouverts et les systèmes d’indicateurs permettent aux chercheurs de mener plus facilement des expériences d’alignement de la sécurité des modèles.

3. Installation

Chargement du modèle

pip install transformers accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-4B-SafeRL")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-4B-SafeRL")

Ensemble de données d'évaluation

from datasets import load_dataset
ds = load_dataset("Qwen/Qwen3GuardTest")

Compatibilité de raisonnement : prend en charge SGLang (≥0.4.6.post1) et vLLM (≥0.8.5) et peut accéder à l'interface API OpenAI.

Cas d'utilisation typiques

Recherche sur l’alignement de la sécurité : analyser les effets et les compromis de l’apprentissage par renforcement dans l’optimisation de la sécurité.
Système d'examen en temps réel : combiné au modèle Guard-Stream, il effectue une inspection jeton par jeton sur la sortie en streaming.
Déploiement en entreprise : fournir une couche de sécurité pour les chatbots et les plateformes de génération de contenu.
Évaluation académique : utilisez Qwen3GuardTest pour effectuer une comparaison de sécurité unifiée de différents modèles d’architecture.

5. Écosystème et produits compétitifs

Écosystème : Compatible avec le système de modèle principal Qwen3, il peut être directement utilisé pour le renforcement de la sécurité des Qwen3-4B, 7B, 72B et autres versions.
Concurrents : Comparé à des solutions telles que OpenAI Moderation et Anthropic Constitutional AI, Qwen3Guard offre un contrôle plus précis de la protection des inférences intermédiaires et de la surveillance du streaming.

VI. Limitations et précautions

La formation SafeRL nécessite beaucoup de ressources informatiques et a des exigences matérielles élevées.
Qwen3GuardTest est actuellement principalement en anglais et ses performances multilingues nécessitent une vérification supplémentaire.
L’alignement de l’apprentissage par renforcement peut entraîner de légères fluctuations de performance dans les tâches extrêmes.
Des contraintes de sécurité excessives peuvent conduire au phénomène de « trop de rejets » et les paramètres de la politique doivent être pesés.

7. Adresse du projet

https://github.com/QwenLM/Qwen3Guard

8. Questions fréquemment posées

Q : Quelle est la différence entre les modèles Qwen3-4B-SafeRL et RLHF ordinaires ?

A : SafeRL considère le retour d’information sur la sécurité comme son objectif d’optimisation principal et établit un équilibre entre sécurité et utilité grâce à des récompenses hybrides.

Q : Le Qwen3GuardTest est-il applicable aux modèles autres que ceux de la série Qwen ?

R : Oui, les données et les mesures de référence sont conçues pour être universelles et peuvent être utilisées pour évaluer les performances de sécurité d’autres modèles de langage.

Q : Le modèle SafeRL peut-il être utilisé hors ligne ?

R : Vous pouvez charger les poids Hugging Face ou ModelScope localement et les exécuter hors ligne.

Q : Guard-Stream peut-il interrompre la sortie des risques en temps réel ?

R : Chaque jeton peut être classé en temps réel pendant la phase d’inférence, et la sortie peut être immédiatement bloquée ou remplacée lorsque des risques sont découverts.

Articles connexes

Actualités IA 24h/24 : Mise en œuvre du « calcul milliseconde » dans la zone métropolitaine et mise à niveau du copilote au niveau système

Sortie de PaddleOCR-VL (0,9 B) : le modèle multimodal léger NaViT×ERNIE et l'analyse de documents sont en tête de plusieurs tests de performance.

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés

Qwen3Guard est désormais entièrement open source : un double framework pour l&#39;alignement de sécurité et la protection contre les inférences