인위적 방법론: Claude를 사용하여 에이전트 도구에 "많은" 대신 "right"를 씁니다.

Anthropic은 Claude와 같은 AI 에이전트를 사용하여 도구를 설계, 평가 및 반복하는 엔지니어링 방법론을 게시합니다. 핵심 초점은 MCP 도구, 체계적인 평가 및 설명 최적화로, 상담원이 우회로를 줄이고 토큰을 덜 소비하며 더 많은 작업을 수행할 수 있도록 합니다.

1. 결론 우선: 좋은 도구의 5가지 철칙

1. 길기보다는 올바른 선택

AI 에이전트는 개발자가 아니며 중복 도구는 주의를 산만하게 할 것입니다. 일반 목록을 검색 유형으로 바꾸는 등 고부가가치 워크플로를 중심으로 소수의 고품질 도구를 설계하여 작업 의도를 검증 가능한 출력과 직접 일치시킵니다.

2. 명명과 네임스페이스 명확화

서비스 및 리소스 접두사에 따른 네임스페이스를 지정하여

도구 기능의 중복 및 오용을 줄입니다. 모델마다 접두사 및 접미사 이름 지정에 대한 민감도가 다르며 평가 데이터를 사용하여 체계를 결정해야 합니다.

3. "시그널링"의 컨텍스트 반환

우선

순위는 후속 작업을 구동할 수 있는 주요 정보 및 의미 식별자와 덜 낮은 값 필드에 다시 부여됩니다. 필요한 경우 가독성과 연결 기능을 고려하여 상세하고 간소화된 response_format 제공합니다.

4. 토큰 효율성을 위해 설계

됨

페이지 매김, 필터링 및 잘림은 기본적으로 활성화되어 있으며 잘못된 재시도 및 컨텍스트 낭비를 방지하기 위해 실행 가능한 개선 지침이 오류 메시지에 제공됩니다.

5. "도구 설명"을 프롬프트 프로젝트로 사용

입력과 출력은 모호하지 않아야 하며 예제는 실제 비즈니스에 가까워야 합니다. 설명을 조금만 조정하면 도구 호출의 성공률과 완료율을 크게 향상시킬 수 있습니다.

2. 구현 방법: 프로토타입 → 평가 → 공동 창조의 폐쇄 루프

1. 먼저 프로토타입을 만든 다음 MCP에 연결

Claude 코드를 사용하여 사용 가능한 최소한의 도구 및 문서 초안을 작성하고, 로컬 MCP 서버 또는 데스크톱 확장을 캡슐화하고, 에이전트에서 폐쇄 루프 자체 테스트를 테스트한 다음 프로그래밍 방식 실험을 위한 API에 액세스합니다.

2. 체계적인 평가

실제 데이터와 복잡한 작업을 사용하여 평가 세트를 생성하고, 상담원이 완전한 도구 호출 루프를 실행하고, 시간, 호출 수, 토큰 소비 및 오류 유형을 기록하고, 정확도 이외의 다차원 지표로 의사 결정을 지원합니다.

3. 에이전트와 협력하여

분석을 위해 Claude에 대한 전사 및 실패 샘플을 최적화하고 도구 구현 및 설명을 일괄적으로 개선하여 새로운 변경 사항이 일관성을 깨뜨리는 것을 방지합니다. 적합도가 왼쪽 검정 세트의 세트 세트로 제한되지 않는지 확인합니다.

3. 엔지니어의 작업 목록

(1)

단일 목적, 명확한 입력 명명, 검증 가능한 출력 및 자연어 식별의 우선 재사용을 갖춘 설계 도구.

(2) 성능

도구 응답의 상한을 제한하여 하나의 큰 패키지가 아닌 여러 개의 정확한 검색을 우선시합니다.

(3) 관찰 가능한

도구 호출 로그, 실패 이유 및 컨텍스트 요약은 쉽게 회귀할 수 있도록 보관됩니다.

(4) 보안

읽

기 전용 도구와 쓰기 전용 도구를 구별하고, 잠재적으로 파괴적인 작업을 표시하고, 수동 액세스 제어를 설정합니다.

자주 묻는 질문(Q&A)

Q: AI 에이전트가 내 도구를 더 많이 사용하도록 하려면 어떻게 해야 합니까? A

: 도구 설명부터 시작하여 실제 시나리오 예제와 매개변수 제약 조건을 제공합니다. 평가 데이터를 사용하여 구조의 이름을 반복적으로 지정하고 출력하고, 가독성과 연결을 모두 고려하여 필요한 경우 상세하고 간결한 반환을 제공합니다.

Q: 엔터프라이즈급 에이전트를 위한 MCP의 실제 가치는 무엇입니까?

A: MCP는 다중 서버 및 다중 도구 액세스를 통합하고, 네임스페이스 관리 및 권한 계층 구조를 용이하게 하며, 에이전트가 혼란 없이 수백 개의 도구를 꾸준히 호출할 수 있도록 합니다.

Q: 토큰 비용이 통제 불능 상태인 경우 어떻게 해야 합니까

A: 도구 계층에서 페이지 매김 및 필터링, 응답 단어 수의 상한 설정, 오류 카피라이팅 최적화; 상담원이 하나의 큰 검색을 여러 개의 작은 검색으로 대체하도록 안내합니다.

Q: 도구가 정말 좋아졌는지 평가하는 방법

: 업무에 가까운 태스크 세트와 세트 세트를 설정하고, 정확도, 호출 횟수, 소요 시간, 토큰 등을 기록합니다. 변경 전후의 실제 및 복잡한 작업 완료가 향상되었습니다.

관련 기사

Qwen3-Next-80B-A3B 출시: 3B 활성화 초희소 MoE, 긴 컨텍스트 처리량에 대한 새로운 벤치마크

checkpoint-engine 오픈 소스: LLM 추론 측의 "인플레이스 가중치 업데이트"로 RL 훈련-시작 주기를 두 번째 수준으로 단축

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구