소프트 적응 정책 최적화(SAPO) 알고리즘에 관한 논문은 arXiv에 게재되었고, 이후 Qwen 팀은 공식 블로그 시스템을 통해 대규모 언어 및 다중 모달 모델에 대한 강화 학습 훈련 방법을 도입했습니다. 하드 클리핑에 기반한 기존 전략 최적화는 특히 혼합 전문가(MoE) 구조에서 극심한 변동보다 중요도가 높을 때 사라지거나 폭발적으로 증가하며, 이는 불안정한 훈련과 낮은 샘플 활용 효율로 이어질 가능성이 높다.
SAPO는 전통적인 하드 경계를 연속적이고 조절 가능한 '온도 게이팅'으로 대체하여 토큰 수준의 중요성을 적응적으로 확장하면서도 직렬 수준에서 신뢰 도메인과 유사한 제약을 유지하고, 정책에서 크게 벗어나는 부분만 억제하고 정책 분포에 가까운 유효 구배를 유지합니다. 이 알고리즘은 또한 고분산 MoE 모델에서 견고성을 높이기 위해 비대칭 온도 설정을 허용합니다. 논문과 실험들은 유사한 학습 예산 하에서 SAPO가 더 긴 기간 동안 안정적인 강화학습 훈련을 지원할 수 있으며, 수학, 코드, 다중모달 작업의 Pass@1 등 Qwen3-VL 시리즈 모델의 핵심 지표를 크게 개선하여 대형 모델의 강화학습 조정에 보다 확장 가능하고 재사용 가능한 기반을 제공할 수 있음을 보여줍니다.
자주 묻는
질문: SAPO란 무엇인가요?
A: SAPO는 Soft Adaptive Policy Optimization의 약자로, 대규모 모델 RL 튜닝을 위한 정책 최적화 방법으로, 부드러운 게이팅과 적응형 업데이트를 강조합니다.
Q: 전통적인 하드 클리핑에 비해 핵심적인 개선점은 무엇인가요?
A: SAPO는 갑작스러운 경사나 '완전 온/전면 꺼짐'으로 인한 폭발을 방지하기 위해 단단한 임계값 대신 연속적이고 온도 조절된 도어로 교체합니다.
Q: 왜 MoE 모델보다 장점에 특별히 중점을 두나요?
A: MoE 구조 자체가 분산을 증폭시키며, SAPO의 비대칭 온도와 미세한 토큰 조정은 극단적인 샘플로 인한 학습 안정성 손상을 완화할 수 있습니다.
Q: SAPO의 성능 측면에서 구체적인 이점은 무엇인가요?
A: 실험 보고서에 따르면 Qwen3-VL은 더 길고 안정적인 RL 훈련 과정을 달성할 수 있으며, Qwen3-VL에서 더 높은 Pass@1 및 멀티태스킹 성능 향상을 가져올 수 있습니다.
Q: SAPO의 연구와 실행은 어느 정도까지 공개되어 있나요?
답변: 알고리즘과 실험 결과의 세부 사항은 논문과 공식 블로그를 통해 발표되어 연구자와 엔지니어링 팀의 추가 구현 및 평가를 위해 이루어졌습니다.