Hermesエージェントのリクエストは「コストがかかりすぎる」という理由ではなく、ツール呼び出しのループが多すぎるため、各ステップが別々のリクエストになることがあります。ペイパーリクエストプランを利用する場合は、タスクの範囲やツールの反復を積極的に制限しましょう。
まずは請求対象の料金を明確にしましょう
トークン請求を使う場合、長いコンテキストや大きなファイル読み取りはコストに影響しやすいです。リクエストベースのソリューションを使う場合、最も注目すべきはモデルがタスクで呼び出される回数です。最近のコミュニティの議論では、多くのユーザーの悩みは「研究問題は何十ものリクエストを消費する」というものです。
最も効果的な実践
- 質問を狭く書きましょう。「この業界の調査を手伝う」というのではなく、「公式文書と3つの最新情報のみを確認し、結論を出す」と変えましょう。
- ツールループを制限する:タスクに「最大3回まで検索し、5ページ読んだ後に要約しなければならない」と明確に記載してください。
- 大規模タスクの反復制限を下げました:公式設定には
agent.max_turnsがあり、デフォルトで1ラウンドの会話の最大反復数を制御しています。 - 複雑なタスクを分割する:実行する部品を確認する前にヘルメスに計画をリストアップさせ、一度にすべてが実行されないようにしましょう。
圧縮を節約のスイッチとして使わないでください
コンテキスト圧縮は長時間のセッションを継続させますが、圧縮自体はヘルパーモデルも呼び出します。「コンテキストが合わない」という問題を解決し、すべてのコストを自動的に半分に削減するわけではありません。リクエストを保存する本当の方法は、不要な検索、閲覧、重複ファイル読み取り、目標のないツール呼び出しを減らすことです。
一言で言えば、リクエストに応じて請求する際、Hermesは執行者であり、無限の探検者ではありません。範囲と上限を提示し、段階的に納品すれば、コストはすぐにずっとコントロールしやすくなります。