Tongyi DeepResearch Open Source : un agent Web d'activation de petite taille de 30 milliards de dollars comparable à OpenAI Deep Research

Tongyi DeepResearch est officiellement open source. Agent web pour la recherche et le raisonnement de liens longs, il se rapproche d'OpenAI Deep Research sur les mêmes tâches. Officiellement, il a obtenu des scores de 32,9 au Humanity's Last Exam, 45,3 à BrowseComp et 75,0 à xbench-DeepSearch. La méthodologie complète et le pipeline reproductible sont disponibles en open source, au bénéfice des équipes de R&D, des médias et du contenu e-commerce. Tongyi DeepResearch met l'accent sur la reproductibilité de bout en bout. En combinant données synthétiques, pré-entraînement continu, ajustement supervisé et apprentissage par renforcement, ainsi que des stratégies de recherche et d'outils, l'agent web obtient des résultats stables pour les tâches complexes de collecte d'informations et de raisonnement, réduisant ainsi la charge de développement secondaire pour les équipes.

2. Analyse comparative des performances et interprétation des indicateurs

Lors du test final humain, de la récupération par navigation et de l'évaluation orientée utilisateur, Tongyi DeepResearch a obtenu respectivement des scores de 32,9, 45,3 et 75,0, démontrant ses performances comparables en matière de recherche d'informations approfondies et d'épissage de preuves, ce qui le rend adapté aux scénarios nécessitant un raisonnement à long terme et une validation croisée sur plusieurs pages.

(1) Petite activation, grand modèle

La conception, avec un nombre total de paramètres de 30 B et des activations d'environ 3 B, équilibre la capacité de raisonnement et le coût, et peut être déployée efficacement sur les clusters GPU grand public.

(2) Stratégie à long terme et utilisation des outils

En combinant la planification en plusieurs étapes, le retour en arrière des preuves et les appels d'outils Web, l'agent Web peut former une boucle fermée depuis la récupération, la comparaison et la documentation.

（3） Adaptation des thèmes chinois et sectoriels

Maintenir des performances stables dans les tâches en chinois et en anglais et les questions et réponses du domaine professionnel est propice à la production de contenu multilingue et à la recherche professionnelle.

II. Chemin de mise en œuvre et avantages pour l'équipe

1. Méthode de mise en œuvre typique en trois étapes

La première étape consiste à déterminer les objectifs commerciaux et l'ensemble d'évaluation, la deuxième étape consiste à exécuter le processus de bout en bout avec la configuration par défaut de Tongyi DeepResearch, et la troisième étape consiste à se connecter à sa propre base de connaissances et à la liste blanche du site pour terminer l'étalonnage de la qualité et de la conformité.

2. Avantages du scénario commercial

Les équipes médias et de recherche l'utilisent pour trier les sujets et aligner les faits, le commerce électronique et les marques l'utilisent pour la recherche sur la concurrence et l'agrégation de preuves multi-sources, et les développeurs l'intègrent dans le flux de travail pour générer des rapports structurés avec des sources et des chaînes de raisonnement.

（1） Contrôle qualité

Combinez des ensembles de référence avec un échantillonnage manuel pour suivre la cohérence des faits, la diversité des sources et la traçabilité.

（2） Contrôle des coûts

Réduisez les coûts des sessions longues grâce à de petites activations et à la réutilisation du cache, et allouez dynamiquement les étapes en fonction de la complexité des tâches.

（3） Sécurité et conformité

Configurez des listes blanches de noms de domaine, la conservation des journaux et des audits de mots sensibles pour garantir la minimisation et la traçabilité des données.

a. Collaboration d'équipe

Créez un système de modèles de mots d'invite et de balises de bibliothèque de preuves pour réduire les biais causés par la rotation du personnel.

b. Intégration technique

Connectez-vous aux pipelines existants avec des passerelles API et une limitation du débit de file d'attente, prenant en charge les niveaux de gris et la restauration.

c. Évaluation itérative

Comparez en permanence BrowseComp et xbench-DeepSearch pour observer les avantages des mises à jour de stratégie et de recherche.

Foire aux questions (Q&R)

Q : Quelle est la relation entre Tongyi DeepResearch et OpenAI Deep Research ?

R : Tongyi DeepResearch est un agent Web open source qui obtient des résultats comparables sur plusieurs benchmarks. Son objectif est de reproduire les capacités de recherche approfondie et de raisonnement à long terme dans une solution open source, facilitant ainsi sa mise en œuvre pour les entreprises et les développeurs. Q : Quelle est l’importance des 30 milliards de paramètres et des quelque 3 milliards d’activations de Tongyi DeepResearch ? R : Cette conception réduit les coûts d’inférence tout en préservant les capacités de raisonnement. Elle est adaptée aux environnements de production qui nécessitent une navigation de liens à long terme et l’assemblage de preuves multiples, et est plus facile à déployer et à planifier à grande échelle. Q : Que représentent les scores de référence tels que Humanity’s Last Exam 32.9, BrowseComp 45.3 et xbench-DeepSearch 75.0 ? R : Ces scores mesurent respectivement le raisonnement académique, la recherche sur le Web dans le monde réel et les capacités de recherche approfondie orientée utilisateur. Des scores plus élevés indiquent une plus grande fiabilité dans la vérification d’informations complexes, les stratégies de navigation et l’intégration de preuves. Q : Comment l’équipe intègre-t-elle Tongyi DeepResearch aux processus de contenu et de R&D existants ? A : Une approche en trois étapes : tout d’abord, établir un ensemble d’évaluations commerciales et des indicateurs de qualité, puis les exécuter via le pipeline par défaut pour accéder aux données propriétaires et aux contrôles d’autorisation ; enfin, connecter la sortie aux systèmes d’approbation, de publication et d’archivage, formant ainsi une boucle fermée.

Articles connexes

Lancement du registre GitHub MCP : installation en un clic d'outils d'IA avec Copilot et VS Code

Mise à jour du curseur : les commandes personnalisées et les ressources MCP aident à boucler la boucle de programmation de l'IA

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés