Les requêtes Hermes Agent sont consommées trop rapidement, généralement non pas parce que « c’est trop cher », mais parce qu’il y a trop de boucles d’appels d’outils : recherche une fois, lis la page une fois, recherche à nouveau, chaque étape peut être une requête distincte. Lors de l’utilisation d’un plan pay-per-request, limitez proactivement la portée des tâches et des itérations d’outils.
Déterminez d’abord ce pour quoi vous êtes facturé
Si vous utilisez la facturation par jetons, les contextes longs et les lectures volumineuses de fichiers ont plus d’impact sur les coûts. Si vous utilisez une solution basée sur des requêtes, la chose la plus importante à observer est le nombre de fois où le modèle est appelé dans une tâche. Dans les discussions récentes de la communauté, de nombreux utilisateurs ont des points de douleur comme « un problème de recherche consomme des dizaines de requêtes ».
La pratique la plus efficace
- Écris la question de façon restreinte : au lieu de dire « aidez-moi à faire des recherches sur ce secteur », changez-la en « vérifiez seulement les documents officiels et les trois dernières informations, et donnez une conclusion ».
- Limiter les boucles d’outils : Précisez clairement dans la tâche « Recherche jusqu’à 3 fois, et doit résumer après avoir lu 5 pages ».
- Réduction de la limite d’itérations pour les tâches importantes : Il y a une
agent.max_turnsdans la configuration officielle, qui est utilisée par défaut pour contrôler la durée maximale d’une seule ronde de dialogue. - Segmentez les tâches complexes : Laissez Hermès lister les plans avant de confirmer les parties à exécuter, afin que tout ne s’exécute pas d’un coup.
N’utilisez pas la compression comme un interrupteur pour économiser de l’argent
La compression de contexte maintient de longues sessions, mais la compression elle-même appelle aussi le modèle d’aide. Elle résout le problème du « contexte ne correspond pas », et ne réduit pas automatiquement tous les coûts de moitié. La vraie façon d’économiser les requêtes est de réduire les recherches inutiles, la navigation, les lectures de fichiers en double et les appels d’outils sans but.
En un mot : lors de la facturation sur demande, Hermes est l’exécuteur, pas l’explorateur infini. Donnez la portée, fixez la limite supérieure, et laissez-la être livrée par étapes, et le coût sera bien plus contrôlable immédiatement.