Tongyi DeepResearchオープンソース：OpenAI Deep Researchに匹敵する300億ドル規模の小規模アクティベーションWebエージェント

Tongyi DeepResearchが正式にオープンソース化されました。ロングリンク検索と推論のためのWebエージェントとして、同タスクにおいてOpenAI Deep Researchに迫る性能を発揮します。公式スコアは、Humanity's Last Examで32.9、BrowseCompで45.3、xbench-DeepSearchで75.0を達成しました。完全な方法論と再現可能なパイプラインがオープンソースで利用可能であり、R＆D、メディア、eコマースコンテンツチームにメリットをもたらします。Tongyi DeepResearchは、エンドツーエンドの再現性を重視しています。合成データ、継続的な事前トレーニング、教師ありファインチューニング、強化学習、そして検索とツールベースの戦略を組み合わせることで、Webエージェントは複雑な情報収集と推論タスクにおいて安定した出力を実現し、チームの二次開発の負担を軽減します。

2.パフォーマンスベンチマークと指標の解釈

人間による最終テスト、ブラウジング検索、ユーザー指向の評価において、Tongyi DeepResearch はそれぞれ 32.9、45.3、75.0 のスコアを獲得し、ディープ情報検索と証拠スプライシングにおいて同等のパフォーマンスを示し、長期推論と複数ページのクロス検証を必要とするシナリオに適しています。

(1) 小さなアクティベーション、大きなモデル

合計パラメータ数が 300 億、アクティベーションが約 30 億の設計は、推論能力とコストのバランスが取れており、主流の GPU クラスターに効率的に展開できます。

(2) 長期戦略とツールの使用

Web エージェントは、マルチステップの計画、証拠のバックトラッキング、Web ツール呼び出しを組み合わせることで、検索、比較、ドキュメント化までのクローズドループを形成できます。

（3）中国語と業界のテーマの適応

中国語と英語のタスクおよび専門分野の質疑応答で安定したパフォーマンスを維持することは、多言語コンテンツ制作と専門的な研究に役立ちます。

II. 実装パスとチームの利点

1. 一般的な実装の 3 段階方式

最初のステップでは、ビジネス目標と評価セットを決定し、2 番目のステップでは、Tongyi DeepResearch のデフォルト構成でエンドツーエンドのプロセスを実行し、3 番目のステップでは、独自のナレッジベースとサイトホワイトリストに接続して、品質とコンプライアンスの調整を完了します。

2.ビジネスシナリオの利点

メディアチームや調査チームはトピックの整理や事実の整合に使用し、e コマースチームやブランドは競合他社の調査や複数ソースの証拠の集約に使用し、開発者はワークフローに組み込んで、ソースと推論チェーンを含む構造化レポートを生成します。

（1）品質管理

ベンチマークセットと手動サンプリングを組み合わせて、事実の一貫性、ソースの多様性、追跡可能性を追跡します。

（2）コスト管理

小規模なアクティベーションとキャッシュの再利用によって長時間セッションのコストを削減し、タスクの複雑さに応じてステップを動的に割り当てます。

（3）セキュリティとコンプライアンス

ドメイン名のホワイトリスト、ログの保持、機密語の監査を構成して、データの最小化と追跡可能性を確保します。

a. チームコラボレーション

エンジニアリング統合

API ゲートウェイとキューレート制限を使用して既存のパイプラインに接続し、グレースケールとロールバックをサポートします。

c. 反復評価

戦略と検索の更新によるメリットを確認するため、BrowseComp と xbench-DeepSearch に対して継続的にベンチマークを実行します。

よくある質問 (Q&A)

Q: Tongyi DeepResearch と OpenAI Deep Research の関係は何ですか?

A: Tongyi DeepResearch は、複数のベンチマークで同等の結果を達成するオープンソースの Web エージェントです。その目標は、オープンソースソリューションでディープサーチと長期推論機能を再現し、企業や開発者が実装しやすくすることです。

Q: Tongyi DeepResearch の合計 300 億のパラメーターと約 30 億のアクティベーションの重要性は何ですか?

A: この設計により、推論機能を維持しながら推論コストが削減されます。長期的なリンク閲覧や複数の証拠のつなぎ合わせが必要な本番環境に適しており、大規模な導入やスケジュール設定も容易です。

Q: Humanity's Last Exam 32.9、BrowseComp 45.3、xbench-DeepSearch 75.0 などのベンチマークスコアは何を表していますか? A: これらのスコアは、それぞれ学術的推論、現実世界の Web 検索、ユーザー主導のディープサーチ機能を測定します。スコアが高いほど、複雑な情報検証、閲覧戦略、証拠統合における信頼性が高いことを示します。Q: チームはどのようにして Tongyi DeepResearch を既存のコンテンツや研究開発プロセスに統合するのですか? A: 3 段階のアプローチです。まず、ビジネス評価セットと品質指標を確立し、次にそれをデフォルトのパイプラインに通して独自のデータや権限制御にアクセスします。最後に、出力を承認、リリース、アーカイブの各システムに接続して、閉ループを形成します。