돌아가기 AI Q&A
어떻게 헤르메스 에이전트 요청 수가 너무 빨리 줄어들 수 있을까요?

어떻게 헤르메스 에이전트 요청 수가 너무 빨리 줄어들 수 있을까요?

AI Q&A Admin 81 회 조회

Hermes 에이전트 요청이 너무 빠르게 처리되는데, 보통 "너무 비싸서"가 아니라 도구 호출 루프가 너무 많기 때문입니다: 검색 한 번, 페이지를 읽고, 다시 검색하는 등 각 단계가 별도의 요청일 수 있습니다. 요청당 지불 계획을 사용할 때는 작업과 도구 반복 범위를 적극적으로 제한하세요.

먼저 청구 대상이 무엇인지 확인하세요

토큰 청구를 사용할 경우, 긴 컨텍스트와 큰 파일 읽기가 비용에 더 큰 영향을 미칠 가능성이 높습니다. 요청 기반 솔루션을 사용할 경우, 가장 중요한 것은 모델이 작업에서 호출되는 횟수입니다. 최근 커뮤니티 토론에서 많은 사용자들의 고충은 "연구 문제가 수십 개의 요청을 소모한다"는 것입니다.

가장 효과적인 실천 방법

  • 질문을 좁게 작성하세요: "이 산업을 조사하는 데 도움을 준다"고 말하는 대신, "공식 문서와 최신 세 가지 정보만 확인하고 결론을 내린다"로 바꾸세요.
  • 도구 루프 제한: 작업에 "최대 3회 검색, 5페이지를 읽은 후 요약해야 한다"고 명확히 명시하세요.
  • 대규모 작업에 대한 반복 제한 낮춤: 공식 구성에는 agent.max_turns이 있어 기본적으로 단일 대화 라운드의 최대 반복 횟수를 제어합니다.
  • 복잡한 작업 분할: Hermes가 실행 부품을 확인하기 전에 계획을 나열하게 하여 한꺼번에 모두 실행되지 않도록 하세요.

압축을 비용 절감 스위치로 사용하지 마세요

컨텍스트 압축은 긴 세션을 유지하지만, 압축 자체도 헬퍼 모델을 호출합니다. 이는 "컨텍스트가 맞지 않는다"는 문제를 해결하며, 모든 비용을 자동으로 절반으로 줄이는 것은 아닙니다. 요청을 저장하는 진짜 방법은 불필요한 검색, 탐색, 중복 파일 읽기, 목표 없는 도구 호출을 줄이는 것입니다.

한마디로: 요청 시 청구할 때는 Hermes가 집행자이지 무한 탐험가가 아닙니다. 범위를 제시하고, 상한선을 정하고, 단계별로 전달하면 비용이 훨씬 즉시 통제 가능해집니다.

추천 도구

더보기