通义 Tongyi DeepResearch 开源：30B 小激活 Web Agent，对标 OpenAI Deep Research

通义 Tongyi DeepResearch 正式开源，作为面向长链路检索与推理的 Web Agent，在相同任务下接近 OpenAI Deep Research。官方披露 Humanity’s Last Exam 32.9、BrowseComp 45.3、xbench-DeepSearch 75.0，并以开源方式提供完整方法论与可复现管线，利好研发、媒体与电商内容团队。

一、核心亮点与技术看点

1、开源 Web Agent 的可复现性

Tongyi DeepResearch 强调端到端可复现，以合成数据、持续预训练、监督微调与强化学习串联，配合检索与工具使用策略，使 Web Agent 在复杂信息搜集与论证任务上稳定输出，降低团队二次开发难度。

2、性能对标与指标解读

在人类最后考卷、浏览检索与用户导向评测中，Tongyi DeepResearch 给出 32.9、45.3、75.0 的成绩，显示其在深度信息搜索与证据拼接方面具备可对标能力，适合需要长推理与多页面交叉验证的场景。

（1）小激活大模型

30B 总参数、激活约 3B 的设计，兼顾推理能力与成本，可在主流 GPU 集群高效部署。

（2）长程策略与工具使用

结合多步计划、证据回溯与网页工具调用，Web Agent 能从检索、比对到成文形成闭环。

（3）中文与行业题材适配

在中英文任务、专业领域问答上维持稳定表现，利于跨语种内容生产与专业调研。

二、落地路径与团队收益

1、典型落地三步法

第一步确定业务目标与评测集，第二步以 Tongyi DeepResearch 默认配置跑通端到端流程，第三步接入自有知识库与站点白名单，完成质量与合规校准。

2、业务场景收益

媒体与研究团队用来做议题梳理与事实对齐，电商与品牌用于竞品调研与多源证据汇总，开发者将其嵌入工作流，生成带出处与推理链的结构化报告。

（1）质量控制

以基准集合与人工抽检结合，跟踪事实一致性、来源多样性与可追溯性。

（2）成本控制

通过小激活与缓存复用降低长会话花费，按任务复杂度动态分配步数。

（3）安全合规

配置域名白名单、日志留存与敏感词审计，确保数据最小化与可追踪。

a. 团队协作

沉淀提示词模板与证据库标签体系，降低人员更替带来的偏差。

b. 工程集成

以 API 网关与队列限流接入现有管线，支持灰度与回滚。

c. 评测迭代

持续对标 BrowseComp 与 xbench-DeepSearch，观察策略与检索更新的收益。

常见问题解答（Q&A）

Q：Tongyi DeepResearch 与 OpenAI Deep Research 的关系是什么？

A：Tongyi DeepResearch 是开源 Web Agent，在多项基准上给出可对标成绩，目标是以开源方案复现深度检索与长推理能力，便于企业与开发者落地。

Q：Tongyi DeepResearch 的 30B 总参数与激活约 3B 有何意义？

A：该设计在保持推理能力的同时降低推理成本，适合需要长链路浏览与多证据拼接的生产环境，更易规模化部署与调度。

Q：基准分数如 Humanity’s Last Exam 32.9、BrowseComp 45.3、xbench-DeepSearch 75.0 代表什么？

A：分别衡量学术推理、真实网页检索与用户导向深搜能力，分数越高表示在复杂信息查证、浏览策略与证据整合上更可靠。

Q：团队如何把 Tongyi DeepResearch 融入现有内容与研发流程？

A：以三步法落地：先建立业务评测集与质量指标，再用默认管线跑通，从而接入自有数据与权限控制；最终将产出接入审批、发布与归档系统，形成闭环。

通义 Tongyi DeepResearch 开源：30B 小激活 Web Agent，对标 OpenAI Deep Research

相关文章

GitHub MCP Registry 上线：Copilot 与 VS Code 一键安装 AI 工具

Cursor更新：自定义命令与 MCP 资源助力 AI 编程闭环

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

通义 Tongyi DeepResearch 开源：30B 小激活 Web Agent，对标 OpenAI Deep Research

相关文章

GitHub MCP Registry 上线：Copilot 与 VS Code 一键安装 AI 工具

Cursor更新：自定义命令与 MCP 资源助力 AI 编程闭环

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

提交AI工具

请确认提交信息