Hermes Agent liest zu viele Dateien, was zu hohem Tokenverbrauch führt, also passe zuerst den Aufgabenbereich an und schau dir dann die file_read_max_chars an. Lass nicht zu, dass er das gesamte Repository wahllos liest, du solltest ihn bitten, zuerst nach dem Standort zu suchen und dann nur die relevanten Fragmente zu lesen.
Warum Dateilesen teuer ist
Der Dateiinhalt wird in den Modellkontext aufgenommen, insbesondere Logs, Build-Produkte, komprimierten Code, große JSON-Dokumente und große Markdown-Dokumente, die problemlos Zehntausende von Tokens gleichzeitig packen können. In der offiziellen Konfiguration wird file_read_max_chars verwendet, um standardmäßig die Anzahl der Zeichen pro Leseart zu begrenzen, große Kontextmodelle können erhöht werden, während kleine Kontexte oder lokale Modelle reduziert werden sollten.
Optimierung, die sofort umgesetzt werden kann
- Lass Hermes die Suche nutzen, um Keywords zu wählen, bevor er die lokalen Dateien liest, die ankommen.
- Bitte sie, keine
node_modules,dist,build, große Logs und Cache-Verzeichnisse zu lesen. - Das Szenario des kleinen Modells reduziert
file_read_max_charsauf einen konservativeren Wert. - Lass die große Datei in Abschnitten gelesen werden und entspanne die Schlussfolgerung nach jedem Absatz, ohne alles auf einmal zu füllen.
Beachten Sie die Grenzen der automatischen Deduplizierung
Hermes führt eine gewisse Deduplizierung bei doppelten Dateilesungen durch: Wenn derselbe Dateibereich unverändert bleibt, können nachfolgende Lesungen eine Lichtaufforderung zurückgeben, anstatt den gesamten Inhalt wiederholt zu senden. Nach der Kontextkompression muss das Modell jedoch möglicherweise kritische Dateien erneut lesen, sodass Sie weiterhin den Lesebereich kontrollieren müssen.
Der beste Weg zur Prompt ist: "Liste die Dateien auf, die du lesen musst und warum, und warte auf meine Bestätigung, bevor du sie liest." So kannst du Token für wirklich relevante Kontexte ausgeben, anstatt den Agenten mit dem Budget selbst entscheiden zu lassen.