11月初旬、QwenチームはQwen3-Max-Thinkingの初期プレビュー版をリリースし、このモデルはまだトレーニング中の中間チェックポイントであると説明しました。公式声明によると、ツールの使用と拡張されたテスト時コンピューティングを組み合わせた結果、このモデルはAIME 2025やHMMTといった難易度の高い推論ベンチマークで100%のスコアを達成しました。現在のバージョンはQwen Chatで入手可能で、Alibaba Cloud Model Studio APIで「enable_thinking」パラメータを有効にすることでアクセスできます。
公開されているサードパーティのリーダーボードは通常、固定設定を使用しており、外部ツールや通常とは異なるテスト中の計算能力の拡張が考慮されていない可能性があることにご注意ください。そのため、それらの結果は、メーカーが「ツールの機能強化 + 計算能力の拡張」と謳う結果と異なる場合があります。最近のAIME 2025サマリーリーダーボードは、一般的に100%の完璧なスコアを表示していません。将来の統合ランキングに含まれるかどうかは、評価ルールと再現手順によって異なります。全体として、このリリースは機能プレビューであり、トレーニングとメトリクスは引き続き更新されます。
よくある質問
Q: Qwen3-Max-Thinkingは現在どこで使用できますか?
A: Qwen Chat フロントエンドで試してみるか、Alibaba Cloud Model Studio API 経由で呼び出して、リクエストで enable_thinking=True を設定して思考モードを有効にすることもできます。
Q: 主張されている AIME 2025 と HMMT の「100%」の具体的な条件は何ですか?
A: 公式の説明では「テスト時のツール強化+推論計算能力の拡張」という条件で獲得したものであり、標準のクローズド設定による公開リーダーボードとは定義に違いがあります。
Q: 公開ランキングが必ずしも満点を示さないのはなぜですか?
A: 多くのランキングでは、固定温度、外部ツールの使用不可、または推論予算の制限が求められます。テスト設定が公式テスト設定と異なる場合、スコアが異なるか、スコアが含まれないことがあります。
Q: これは正式版ですか?
A: いいえ。このバージョンは早期プレビュー版であり、まだ開発中です。機能や安定性は今後変更される可能性があります。公式発表では、今後もアップデートを継続していく予定です。
Q: API で思考モードを有効にするにはどうすればよいですか?
A: Alibaba Cloud Model Studio の関連インターフェースで enable_thinking パラメータを使用します。具体的な実装ドキュメントに例が示されています。