Tongyi DeepResearch가 공식적으로 오픈소스로 공개되었습니다. 롱링크 검색 및 추론을 위한 웹 에이전트로서, 동일한 과제에서 OpenAI Deep Research와 유사한 성과를 보이고 있습니다. 공식적으로 Humanity's Last Exam에서 32.9점, BrowseComp에서 45.3점, xbench-DeepSearch에서 75.0점을 획득했습니다. 완전한 방법론과 재현 가능한 파이프라인은 오픈소스로 제공되어 R&D, 미디어 및 전자상거래 콘텐츠 팀에 도움을 줄 수 있습니다. Tongyi DeepResearch는 종단 간 재현성을 강조합니다. 합성 데이터, 지속적인 사전 학습, 지도 학습, 강화 학습, 검색 및 도구 기반 전략을 결합하여 복잡한 정보 수집 및 추론 과제에서 안정적인 결과를 도출하고 팀의 2차 개발 부담을 줄여줍니다.
2. 성능 벤치마킹 및 지표 해석
인간 최종 테스트인 검색 및 사용자 지향 평가에서 Tongyi DeepResearch는 각각 32.9, 45.3 및 75.0점을 받아 심층 정보 검색 및 증거 스플라이싱에서 비슷한 성능을 보였고, 장기 추론 및 다중 페이지 교차 검증이 필요한 시나리오에 적합함을 보여주었습니다.
(1) 작은 활성화, 큰 모델
총 매개변수 수가 30B이고 활성화가 약 3B인 이 디자인은 추론 기능과 비용의 균형을 이루며 주류 GPU 클러스터에 효율적으로 배포할 수 있습니다.
(2) 장기 전략 및 도구 사용
다단계 계획, 증거 역추적 및 웹 도구 호출을 결합하여 웹 에이전트는 검색, 비교에서 문서화까지 폐쇄 루프를 형성할 수 있습니다.
(3) 중국어 및 업계 테마 적용
중국어 및 영어 작업과 전문 분야 질의응답에서 안정적인 성과를 유지하는 것은 언어 간 콘텐츠 제작 및 전문 연구에 도움이 됩니다.
II. 구현 경로 및 팀 이점
1. 일반적인 구현 3단계 방법
첫 번째 단계는 비즈니스 목표 및 평가 세트를 결정하는 것입니다. 두 번째 단계는 Tongyi DeepResearch의 기본 구성으로 종단 간 프로세스를 실행하는 것입니다. 세 번째 단계는 자체 지식 기반 및 사이트 화이트리스트에 연결하여 품질 및 규정 준수 교정을 완료하는 것입니다.
2. 비즈니스 시나리오의 이점
미디어 및 연구팀에서는 주제를 정리하고 사실을 정렬하는 데 사용하고, 전자상거래 및 브랜드에서는 경쟁사 연구 및 다중 소스 증거 집계에 사용하고, 개발자는 워크플로에 내장하여 소스 및 추론 체인을 사용하여 구조화된 보고서를 생성합니다.
(1) 품질 관리
벤치마크 세트와 수동 샘플링을 결합하여 사실 일관성, 소스 다양성 및 추적성을 추적합니다.
(2) 비용 관리
소규모 활성화 및 캐시 재사용을 통해 장기 세션 비용을 줄이고 작업 복잡성에 따라 단계를 동적으로 할당합니다.
(3) 보안 및 규정 준수
도메인 이름 허용 목록, 로그 보존 및 민감한 단어 감사를 구성하여 데이터 최소화 및 추적성을 보장합니다.
a. 팀 협업
직원 이직으로 인한 편견을 줄이기 위해 프롬프트 워드 템플릿과 증거 라이브러리 태그 시스템을 구축합니다.
b. 엔지니어링 통합
API 게이트웨이와 대기열 속도 제한을 통해 기존 파이프라인에 연결하고 회색조 및 롤백을 지원합니다.
c. 반복적 평가
BrowseComp 및 xbench-DeepSearch를 지속적으로 벤치마킹하여 전략 및 검색 업데이트의 이점을 관찰합니다.
자주 묻는 질문(Q&A)
Q: Tongyi DeepResearch와 OpenAI Deep Research의 관계는 무엇입니까?
A: Tongyi DeepResearch는 여러 벤치마크에서 비슷한 결과를 얻는 오픈 소스 웹 에이전트입니다. 이 솔루션의 목표는 심층 검색 및 장기 추론 기능을 오픈 소스 솔루션으로 구현하여 기업과 개발자가 더 쉽게 구현할 수 있도록 하는 것입니다.
Q: Tongyi DeepResearch의 총 300억 개의 매개변수와 약 30억 개의 활성화는 어떤 의미를 갖습니까?
A: 이 설계는 추론 기능을 유지하면서 추론 비용을 절감합니다. 장기 링크 탐색 및 다중 증거 스티칭이 필요한 프로덕션 환경에 적합하며, 대규모 배포 및 일정 계획이 더 쉽습니다.
Q: Humanity's Last Exam 32.9, BrowseComp 45.3, xbench-DeepSearch 75.0과 같은 벤치마크 점수는 무엇을 나타냅니까? A: 이 점수는 각각 학문적 추론, 실제 웹 검색, 사용자 중심 심층 검색 기능을 측정합니다. 점수가 높을수록 복잡한 정보 검증, 탐색 전략, 증거 통합에서 더 높은 신뢰성을 나타냅니다. Q: Tongyi DeepResearch 팀은 기존 콘텐츠 및 R&D 프로세스에 어떻게 통합합니까? 답변: 3단계 접근 방식입니다. 먼저, 사업 평가 세트와 품질 지표를 설정한 다음, 이를 기본 파이프라인을 통해 실행하여 독점 데이터와 권한 제어에 접근합니다. 마지막으로, 출력을 승인, 릴리스 및 보관 시스템에 연결하여 폐쇄 루프를 형성합니다.