戻るAI情報
Qwen は Qwen3-Max-Thinking の早期プレビューをリリースし、AIME 2025 で HMMT との 100% の互換性を主張しました。

Qwen は Qwen3-Max-Thinking の早期プレビューをリリースし、AIME 2025 で HMMT との 100% の互換性を主張しました。

AI情報 Admin 93 回閲覧

11月初旬、QwenチームはQwen3-Max-Thinkingの初期プレビュー版をリリースし、このモデルはまだトレーニング中の中間チェックポイントであると説明しました。公式声明によると、ツールの使用と拡張されたテスト時コンピューティングを組み合わせた結果、このモデルはAIME 2025やHMMTといった難易度の高い推論ベンチマークで100%のスコアを達成しました。現在のバージョンはQwen Chatで入手可能で、Alibaba Cloud Model Studio APIで「enable_thinking」パラメータを有効にすることでアクセスできます。

公開されているサードパーティのリーダーボードは通常、固定設定を使用しており、外部ツールや通常とは異なるテスト中の計算能力の拡張が考慮されていない可能性があることにご注意ください。そのため、それらの結果は、メーカーが「ツールの機能強化 + 計算能力の拡張」と謳う結果と異なる場合があります。最近のAIME 2025サマリーリーダーボードは、一般的に100%の完璧なスコアを表示していません。将来の統合ランキングに含まれるかどうかは、評価ルールと再現手順によって異なります。全体として、このリリースは機能プレビューであり、トレーニングとメトリクスは引き続き更新されます。

よくある質問

Q: Qwen3-Max-Thinkingは現在どこで使用できますか?

A: Qwen Chat フロントエンドで試してみるか、Alibaba Cloud Model Studio API 経由で呼び出して、リクエストで enable_thinking=True を設定して思考モードを有効にすることもできます。

Q: 主張されている AIME 2025 と HMMT の「100%」の具体的な条件は何ですか?

A: 公式の説明では「テスト時のツール強化+推論計算能力の拡張」という条件で獲得したものであり、標準のクローズド設定による公開リーダーボードとは定義に違いがあります。

Q: 公開ランキングが必ずしも満点を示さないのはなぜですか?

A: 多くのランキングでは、固定温度、外部ツールの使用不可、または推論予算の制限が求められます。テスト設定が公式テスト設定と異なる場合、スコアが異なるか、スコアが含まれないことがあります。

Q: これは正式版ですか?

A: いいえ。このバージョンは早期プレビュー版であり、まだ開発中です。機能や安定性は今後変更される可能性があります。公式発表では、今後もアップデートを継続していく予定です。

Q: API で思考モードを有効にするにはどうすればよいですか?

A: Alibaba Cloud Model Studio の関連インターフェースで enable_thinking パラメータを使用します。具体的な実装ドキュメントに例が示されています。

『同義1000問』第3版のプレビューが公開されました。 「一般理論に関する千の質問」思考モードをアクティブ化するにはどうすればいいですか? AIME 2025パーフェクトスコア分析 HMMT高難易度ベンチマーク達成度の解釈 ツールの強化と計算能力の説明 テスト中の推論計算能力のスケーリングメカニズム 関係者らは、まだ訓練の途中であると述べている。 QwenChatのフロントエンドを直接試すことができます Alibaba Cloud ModelStudio インターフェースガイド enable_thinkingパラメータの使い方 公開されているランキングとメーカーの声明の相違 リーダーボードに満点スコアが表示されないのはなぜですか? 思考パターンが推論に与える後押し 高難易度推論ベンチマークテストの概要 プレビュー版の機能と安定性の変更 評価ルールと再現実験手順 チュートリアル例 呼び出しと戻り値の解析 標準的な密閉型セットアップとの比較 スコアを比較するための外部ツールがない 推論予算拡大の真の効果 数学の問題を解くためのツールを使用する利点 AIMEとHMMTの評価範囲 早期プレビュー バージョンの機能制限は何ですか? モデルの継続的なトレーニング更新リズム 公式ニュース発表と実際の測定値の相違 Qwen3MaxThinkingの紹介と基本情報 リンクの長さと計算能力の予算を考慮する 複数のツールを使用した共同通話シナリオの例 数学的推論 100点 再現性 公開ランキングに掲載されるために必要な条件 使用制限と課金に関する考慮事項 推論計算予算設定提案 エンタープライズ環境に導入できますか? 思考モードを開始するリスク管理 再現実験の提出に関するガイドライン 競争問題バンクのバージョンと漏洩防止 研究者が対照試験を実施する方法 クロードらのモデルとの比較 同義千文生態製品パノラマ 思考パターンはコーディング問題のパフォーマンスに影響を与える 現実世界のビジネスシナリオ実装観察 学術的評価と製品プロモーションの境界 モデル更新記録を追跡する方法 開発者コミュニティの議論の要点をまとめたものです 大学競技トレーニングの申し込み 企業の意思決定推論への影響 複数の温度設定下での安定性 長いコンテキストとツールルーティング戦略 セキュリティコンプライアンスとデータ保護のヒント 以降のランキングにはすべてのデータが含まれますか?

関連記事

Anthropic はアイスランドの教育・児童省と提携し、全国の教師向けに AI 教育パイロット プログラムを開始します。

Anthropic はアイスランドの教育・児童省と提携し、全国の教師向けに AI 教育パイロット プログラムを開始します。

2025年11月4日、アントロピックはアイスランド教育児童省との提携を発表し、全国の教師にクロードへのアクセスを提供するとともに、教育リソース、研修教材、サポートネットワークも提供します。公式声明では...

Arc ブラウザ: タブとサイドバーのインタラクションを再設計し、ナレッジ ワーカーが Web ページのコンテンツを効率的に整理できるようにします。

Arc ブラウザ: タブとサイドバーのインタラクションを再設計し、ナレッジ ワーカーが Web ページのコンテンツを効率的に整理できるようにします。

I. 基本情報 The Browser Companyが開発したArc BrowserはChromiumエンジンをベースとし、WindowsおよびmacOS向けのデスクトップ版に加え、Arc Sear...

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

2026年6月1日、IT HomeはGSMAが本日、2026年6月24日から25日まで上海MWCでテーマイベントとして「ヒューマノイドロボットペナルティシュートアウト」を開催することを正式に発表したと...

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

2026年6月1日時点でも、OpenAIヘルプセンターのChatGPTリリースノートは最新の更新として表示されています。5月29日のエントリーには次のように記載されています:Codexは現在、Code...

おすすめツール

もっと見る