돌아가기 AI는 오픈 소스입니다.
Qwen3Guard는 이제 보안 정렬 및 추론 보호를 위한 이중 프레임워크인 완전한 오픈 소스입니다.

Qwen3Guard는 이제 보안 정렬 및 추론 보호를 위한 이중 프레임워크인 완전한 오픈 소스입니다.

AI는 오픈 소스입니다. Admin 186 회 조회

I. 요약

Qwen3Guard는 Alibaba Cloud Qwen 팀이 출시한 오픈소스 보안 보호 시스템으로, 추론 및 출력 과정에서 대규모 언어 모델의 보안을 향상시키도록 설계되었습니다. 이 시스템은 Qwen3-4B-SafeRL 강화 학습 정렬 모델과 Qwen3GuardTest 평가 벤치마크로 구성됩니다. Qwen3-4B-SafeRL 모델은 Qwen3Guard-Gen-4B 의 보안 피드백을 강화 학습 훈련에 활용하여 WildJailbreak 벤치마크의 보안 등급을 일반 성능 저하 없이 64.7%에서 98.1%로 향상시킵니다. Qwen3GuardTest는 "Think Chain Reasoning Security Classification"과 "Streaming Generation Review"의 두 가지 시나리오를 다루며, 연구자들에게 표준화된 테스트 프레임워크를 제공합니다.

2. 핵심 기능

  1. 안전 강화 학습(SafeRL): 안전 피드백 신호와 하이브리드 보상 메커니즘을 결합하여 안전성, 유용성, 거부율의 균형을 맞춥니다.
  2. 중간 추론 보호: Qwen3GuardTest는 모델 사고 사슬 콘텐츠의 보안 분류 및 스크리닝을 지원합니다.
  3. 스트리밍 출력 모니터링: Guard-Stream 모델은 토큰 생성 단계에서 동적 위험 식별을 수행할 수 있습니다.
  4. 다국어 보안 범위: 119개 언어와 방언에 대한 보안 분류 및 감지를 지원합니다.
  5. 재현 가능한 평가 프레임워크: 개방형 데이터 세트와 지표 시스템을 통해 연구자는 모델 보안 정렬 실험을 더 쉽게 수행할 수 있습니다.

3. 설치

  1. 모델 로딩
__코드_블록_0__
  1. 평가 데이터 세트
__코드_블록_1__
  1. 추론 호환성: SGLang(≥0.4.6.post1) 및 vLLM(≥0.8.5)을 지원하고 OpenAI API 인터페이스에 액세스할 수 있습니다.

일반적인 사용 사례

  1. 보안 정렬 연구: 보안 최적화에서 강화 학습의 효과와 상충 관계를 분석합니다.
  2. 실시간 검토 시스템: Guard-Stream 모델과 결합하여 스트리밍 출력에 대한 토큰별 검사를 수행합니다.
  3. 기업 배포: 챗봇과 콘텐츠 생성 플랫폼에 대한 보안 계층을 제공합니다.
  4. 학업적 평가: Qwen3GuardTest를 사용하여 다양한 아키텍처 모델에 대한 통합 보안 비교를 수행합니다.

5. 생태계 및 경쟁 제품

  1. 생태계: Qwen3 메인라인 모델 시스템과 호환되며 Qwen3-4B, 7B, 72B 및 기타 버전의 보안 강화에 직접 사용할 수 있습니다.
  2. 경쟁사: OpenAI Moderation 및 Anthropic Constitutional AI와 같은 솔루션과 비교했을 때 Qwen3Guard는 중간 추론 보호 및 스트리밍 모니터링에서 더욱 세분화된 제어 기능을 제공합니다.

VI. 제한 사항 및 주의사항

  1. SafeRL 훈련에는 많은 컴퓨팅 리소스가 필요하고 하드웨어 요구 사항도 높습니다.
  2. Qwen3GuardTest는 현재 주로 영어로 제공되고 있으며, 다국어 성능에 대한 추가 검증이 필요합니다.
  3. 강화 학습 정렬로 인해 극단적인 작업에서 약간의 성능 변동이 발생할 수 있습니다.
  4. 과도한 보안 제약으로 인해 "거부 수가 너무 많음" 현상이 발생할 수 있으므로 정책 매개변수를 신중하게 고려해야 합니다.

7. 프로젝트 주소

https://github.com/QwenLM/Qwen3Guard

8. 자주 묻는 질문

질문: Qwen3-4B-SafeRL과 일반 RLHF 모델의 차이점은 무엇입니까?

A: SafeRL은 안전성 피드백을 핵심 최적화 목표로 삼고 하이브리드 보상을 통해 안전성과 유용성 간의 균형을 이룹니다.

질문: Qwen3GuardTest는 Qwen 시리즈가 아닌 모델에도 적용 가능한가요?

A: 네, 벤치마크 데이터와 측정항목은 보편적으로 적용되도록 설계되었으며 다른 언어 모델의 보안 성능을 평가하는 데 사용할 수 있습니다.

질문: SafeRL 모델을 오프라인에서 사용할 수 있나요?

답변: Hugging Face 또는 ModelScope 가중치를 로컬에서 로드하여 오프라인으로 실행할 수 있습니다.

질문: Guard-Stream이 실시간으로 위험 출력을 중단할 수 있나요?

A: 각 토큰은 추론 단계에서 실시간으로 분류될 수 있으며, 위험이 발견되면 출력을 즉시 차단하거나 교체할 수 있습니다.

추천 도구

더보기