Qwen3Guard 全面开源：安全对齐与推理防护的双重框架

一、摘要

Qwen3Guard 是阿里云 Qwen 团队推出的开源安全防护体系，旨在提升大语言模型在推理和输出阶段的安全性。该体系包含强化学习对齐模型 Qwen3-4B-SafeRL 与评测基准 Qwen3GuardTest。前者利用来自 Qwen3Guard-Gen-4B 的安全反馈进行强化学习训练，在 WildJailbreak 基准上安全率从 64.7 提升至 98.1，且不损失通用任务性能。后者则覆盖“思维链推理安全分类”与“流式生成审查”两大场景，为研究者提供标准化测试框架。

二、核心特性

1、安全强化学习（SafeRL）：结合安全反馈信号与混合奖励机制，平衡“安全性”“有用性”“拒绝率”。

2、中间推理防护：Qwen3GuardTest 支持对模型思维链（Chain-of-Thought）内容的安全分类与筛查。

3、流式输出监测：Guard-Stream 模型可在逐 Token 生成阶段进行动态风险识别。

4、多语言安全覆盖：支持 119 种语言与方言的安全分类与检测。

5、可复现评测框架：开放数据集与指标体系，便于研究者进行模型安全对齐实验。

三、安装

1、模型加载

pip install transformers accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-4B-SafeRL")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-4B-SafeRL")

2、评测数据集

from datasets import load_dataset
ds = load_dataset("Qwen/Qwen3GuardTest")

3、推理兼容：支持 SGLang（≥0.4.6.post1）、vLLM（≥0.8.5），可接入 OpenAI API 接口方式。

四、典型用例

1、安全对齐研究：分析强化学习在安全优化中的效果与折中。

2、实时审查系统：结合 Guard-Stream 模型对流式输出进行逐 Token 检测。

3、企业部署：为聊天机器人、内容生成平台提供安全防护层。

4、学术评测：利用 Qwen3GuardTest 对不同架构模型进行统一安全对比。

五、生态与竞品

1、生态：与 Qwen3 主线模型体系兼容，可直接用于 Qwen3-4B、7B、72B 等版本的安全加固。

2、竞品：与 OpenAI Moderation、Anthropic Constitutional AI 等方案相比，Qwen3Guard 在中间推理防护与流式监控方面更具细粒度控制。

六、局限与注意事项

1、SafeRL 训练需大量计算资源，对硬件要求高。

2、Qwen3GuardTest 目前以英文为主，多语言效果需进一步验证。

3、强化学习对齐可能在极端任务中导致轻微性能波动。

4、过度安全约束可能带来“拒绝过多”现象，需权衡策略参数。

七、项目地址

https://github.com/QwenLM/Qwen3Guard

八、常见问题

Q: Qwen3-4B-SafeRL 与普通 RLHF 模型有何区别？

A: SafeRL 以安全反馈为核心优化目标，通过混合奖励在安全与有用性间取得平衡。

Q: Qwen3GuardTest 是否适用于非 Qwen 系列模型？

A: 是的，基准数据与指标为通用设计，可用于评估其他语言模型的安全表现。

Q: SafeRL 模型是否可离线使用？

A: 可在本地加载 Hugging Face 或 ModelScope 权重离线运行。

Q: 流式监控（Guard-Stream）能实时中断风险输出吗？

A: 可在推理阶段对每个 Token 实时分类，发现风险后立即阻断或替换输出。

Qwen3Guard 全面开源：安全对齐与推理防护的双重框架

相关文章

24小时AI新闻：城域“毫秒用算”落地、系统级Copilot升级

PaddleOCR-VL（0.9B）发布：NaViT×ERNIE 轻量多模态模型，文档解析登顶多项基准

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

Qwen3Guard 全面开源：安全对齐与推理防护的双重框架

相关文章

24小时AI新闻：城域“毫秒用算”落地、系统级Copilot升级

PaddleOCR-VL（0.9B）发布：NaViT×ERNIE 轻量多模态模型，文档解析登顶多项基准

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

提交AI工具

请确认提交信息