Tongyi DeepResearch est officiellement open source. Agent web pour la recherche et le raisonnement de liens longs, il se rapproche d'OpenAI Deep Research sur les mêmes tâches. Officiellement, il a obtenu des scores de 32,9 au Humanity's Last Exam, 45,3 à BrowseComp et 75,0 à xbench-DeepSearch. La méthodologie complète et le pipeline reproductible sont disponibles en open source, au bénéfice des équipes de R&D, des médias et du contenu e-commerce. Tongyi DeepResearch met l'accent sur la reproductibilité de bout en bout. En combinant données synthétiques, pré-entraînement continu, ajustement supervisé et apprentissage par renforcement, ainsi que des stratégies de recherche et d'outils, l'agent web obtient des résultats stables pour les tâches complexes de collecte d'informations et de raisonnement, réduisant ainsi la charge de développement secondaire pour les équipes.
2. Analyse comparative des performances et interprétation des indicateurs
Lors du test final humain, de la récupération par navigation et de l'évaluation orientée utilisateur, Tongyi DeepResearch a obtenu respectivement des scores de 32,9, 45,3 et 75,0, démontrant ses performances comparables en matière de recherche d'informations approfondies et d'épissage de preuves, ce qui le rend adapté aux scénarios nécessitant un raisonnement à long terme et une validation croisée sur plusieurs pages.
(1) Petite activation, grand modèle
La conception, avec un nombre total de paramètres de 30 B et des activations d'environ 3 B, équilibre la capacité de raisonnement et le coût, et peut être déployée efficacement sur les clusters GPU grand public.
(2) Stratégie à long terme et utilisation des outils
En combinant la planification en plusieurs étapes, le retour en arrière des preuves et les appels d'outils Web, l'agent Web peut former une boucle fermée depuis la récupération, la comparaison et la documentation.
(3) Adaptation des thèmes chinois et sectoriels
Maintenir des performances stables dans les tâches en chinois et en anglais et les questions et réponses du domaine professionnel est propice à la production de contenu multilingue et à la recherche professionnelle.
II. Chemin de mise en œuvre et avantages pour l'équipe
1. Méthode de mise en œuvre typique en trois étapes
La première étape consiste à déterminer les objectifs commerciaux et l'ensemble d'évaluation, la deuxième étape consiste à exécuter le processus de bout en bout avec la configuration par défaut de Tongyi DeepResearch, et la troisième étape consiste à se connecter à sa propre base de connaissances et à la liste blanche du site pour terminer l'étalonnage de la qualité et de la conformité.
2. Avantages du scénario commercial
Les équipes médias et de recherche l'utilisent pour trier les sujets et aligner les faits, le commerce électronique et les marques l'utilisent pour la recherche sur la concurrence et l'agrégation de preuves multi-sources, et les développeurs l'intègrent dans le flux de travail pour générer des rapports structurés avec des sources et des chaînes de raisonnement.
(1) Contrôle qualité
Combinez des ensembles de référence avec un échantillonnage manuel pour suivre la cohérence des faits, la diversité des sources et la traçabilité.
(2) Contrôle des coûts
Réduisez les coûts des sessions longues grâce à de petites activations et à la réutilisation du cache, et allouez dynamiquement les étapes en fonction de la complexité des tâches.
(3) Sécurité et conformité
Configurez des listes blanches de noms de domaine, la conservation des journaux et des audits de mots sensibles pour garantir la minimisation et la traçabilité des données.
a. Collaboration d'équipe
Créez un système de modèles de mots d'invite et de balises de bibliothèque de preuves pour réduire les biais causés par la rotation du personnel.
b. Intégration technique
Connectez-vous aux pipelines existants avec des passerelles API et une limitation du débit de file d'attente, prenant en charge les niveaux de gris et la restauration.
c. Évaluation itérative
Comparez en permanence BrowseComp et xbench-DeepSearch pour observer les avantages des mises à jour de stratégie et de recherche.
Foire aux questions (Q&R)
Q : Quelle est la relation entre Tongyi DeepResearch et OpenAI Deep Research ?
R : Tongyi DeepResearch est un agent Web open source qui obtient des résultats comparables sur plusieurs benchmarks. Son objectif est de reproduire les capacités de recherche approfondie et de raisonnement à long terme dans une solution open source, facilitant ainsi sa mise en œuvre pour les entreprises et les développeurs. Q : Quelle est l’importance des 30 milliards de paramètres et des quelque 3 milliards d’activations de Tongyi DeepResearch ? R : Cette conception réduit les coûts d’inférence tout en préservant les capacités de raisonnement. Elle est adaptée aux environnements de production qui nécessitent une navigation de liens à long terme et l’assemblage de preuves multiples, et est plus facile à déployer et à planifier à grande échelle. Q : Que représentent les scores de référence tels que Humanity’s Last Exam 32.9, BrowseComp 45.3 et xbench-DeepSearch 75.0 ? R : Ces scores mesurent respectivement le raisonnement académique, la recherche sur le Web dans le monde réel et les capacités de recherche approfondie orientée utilisateur. Des scores plus élevés indiquent une plus grande fiabilité dans la vérification d’informations complexes, les stratégies de navigation et l’intégration de preuves. Q : Comment l’équipe intègre-t-elle Tongyi DeepResearch aux processus de contenu et de R&D existants ? A : Une approche en trois étapes : tout d’abord, établir un ensemble d’évaluations commerciales et des indicateurs de qualité, puis les exécuter via le pipeline par défaut pour accéder aux données propriétaires et aux contrôles d’autorisation ; enfin, connecter la sortie aux systèmes d’approbation, de publication et d’archivage, formant ainsi une boucle fermée.