Retour à Questions et réponses sur l’IA
Comment le nombre de demandes d’agent Hermès peut-il être réduit trop rapidement ?

Comment le nombre de demandes d’agent Hermès peut-il être réduit trop rapidement ?

Questions et réponses sur l’IA Admin 81 vues

Les requêtes Hermes Agent sont consommées trop rapidement, généralement non pas parce que « c’est trop cher », mais parce qu’il y a trop de boucles d’appels d’outils : recherche une fois, lis la page une fois, recherche à nouveau, chaque étape peut être une requête distincte. Lors de l’utilisation d’un plan pay-per-request, limitez proactivement la portée des tâches et des itérations d’outils.

Déterminez d’abord ce pour quoi vous êtes facturé

Si vous utilisez la facturation par jetons, les contextes longs et les lectures volumineuses de fichiers ont plus d’impact sur les coûts. Si vous utilisez une solution basée sur des requêtes, la chose la plus importante à observer est le nombre de fois où le modèle est appelé dans une tâche. Dans les discussions récentes de la communauté, de nombreux utilisateurs ont des points de douleur comme « un problème de recherche consomme des dizaines de requêtes ».

La pratique la plus efficace

  • Écris la question de façon restreinte : au lieu de dire « aidez-moi à faire des recherches sur ce secteur », changez-la en « vérifiez seulement les documents officiels et les trois dernières informations, et donnez une conclusion ».
  • Limiter les boucles d’outils : Précisez clairement dans la tâche « Recherche jusqu’à 3 fois, et doit résumer après avoir lu 5 pages ».
  • Réduction de la limite d’itérations pour les tâches importantes : Il y a une agent.max_turns dans la configuration officielle, qui est utilisée par défaut pour contrôler la durée maximale d’une seule ronde de dialogue.
  • Segmentez les tâches complexes : Laissez Hermès lister les plans avant de confirmer les parties à exécuter, afin que tout ne s’exécute pas d’un coup.

N’utilisez pas la compression comme un interrupteur pour économiser de l’argent

La compression de contexte maintient de longues sessions, mais la compression elle-même appelle aussi le modèle d’aide. Elle résout le problème du « contexte ne correspond pas », et ne réduit pas automatiquement tous les coûts de moitié. La vraie façon d’économiser les requêtes est de réduire les recherches inutiles, la navigation, les lectures de fichiers en double et les appels d’outils sans but.

En un mot : lors de la facturation sur demande, Hermes est l’exécuteur, pas l’explorateur infini. Donnez la portée, fixez la limite supérieure, et laissez-la être livrée par étapes, et le coût sera bien plus contrôlable immédiatement.

Outils Recommandés

Plus