돌아가기 AI 정보
Kimi Linear 기술 보고서 발표: Linear Attention이 여러 시나리오에서 Full Attention을 능가, Open KDA 커널 및 vLLM 통합

Kimi Linear 기술 보고서 발표: Linear Attention이 여러 시나리오에서 Full Attention을 능가, Open KDA 커널 및 vLLM 통합

AI 정보 Admin 140 회 조회

Moonshot AI는 Kimi Linear 기술 보고서와 공개 가중치를 발표하며 핵심 구성 요소인 Kimi Delta Attention(KDA) 선형 어텐션 모듈과 선형 및 전체 어텐션(MLA)을 결합한 계층적 하이브리드 아키텍처를 강조했습니다. 2025년 10월 30일 제출된 이 기술 보고서는 동일한 학습 레시피와 규모에서 Kimi Linear가 짧은 컨텍스트, 긴 컨텍스트, 그리고 강화학습(RL) 스타일 작업에서 순수 MLA보다 우수한 성능을 보인다고 밝혔습니다. 또한 키-값 캐시 사용량을 최대 75% 줄이고, 100만 개의 컨텍스트 길이를 사용하여 디코딩 처리량을 최대 6배 향상시켰습니다. 또한, 이 보고서는 KDA 커널을 오픈소스로 공개하고 vLLM 통합 및 추론 예제를 제공합니다.

Hugging Face는 Kimi-Linear-48B-A3B(Base 및 Instruct) 체크포인트를 출시했습니다. 이 체크포인트는 약 48바이트의 총 매개변수와 약 3바이트의 활성화 매개변수에 주석을 달고 1M 컨텍스트를 지원합니다. GitHub 저장소는 KDA 연산자와 하이브리드 아키텍처 구현을 제공하며, vLLM 문서에는 KDA 페이지와 통합 레코드가 추가되었습니다. 위에 언급된 성능 및 비용 절감 지표는 기술 보고서와 공식 자료에서 발췌한 것이며, 외부 재현 실험은 아직 진행 중입니다. 배포를 평가할 때, 독자는 자체 하드웨어, 일괄 처리 및 사전 채우기 전략을 기반으로 실제 처리량과 지연 시간을 확인할 수 있습니다.

자주 묻는 질문

질문: 키미리니어의 주요 혁신은 무엇인가요?

A: KDA(Gated DeltaNet의 세분화된 게이팅 개선)를 도입하고 KDA와 MLA를 계층별로 혼합하여 품질과 하드웨어 효율성의 균형을 맞추는 "하이브리드 선형 아키텍처"를 채택합니다.

질문: 완전한 집중과 비교했을 때 어떤 점이 더 향상되나요?

답변: 보고서는 동일한 학습 공식에서 전반적인 품질이 더 우수하고, KV 캐시가 최대 75% 감소하고, 1M 컨텍스트에서 디코딩 처리량이 최대 6배 증가한다고 명시하고 있습니다. 이는 공식 보고서에 나와 있는 측정 결과입니다.

질문: 오픈소스로 공개되었나요?

A: KDA 커널과 vLLM 구현을 오픈소스로 공개하고, 공개 가중치(Base/Instruct)를 제공했습니다. 이는 Hugging Face와 GitHub에서 확인하실 수 있습니다.

질문: 기존의 전체 주의 추론을 직접 대체할 수 있나요?

A: 공식적으로는 "즉시 대체"로 제시되지만, 실제 이점은 모델 크기, 배치 크기, GPU 아키텍처 및 서비스 프레임워크에 따라 달라집니다. 대상 워크로드에 대해 A/B 검증을 수행하는 것이 좋습니다.

질문: 어떤 통합과 리소스를 이용할 수 있나요?

A: vLLM은 KDA 지원에 통합되었습니다. Hugging Face는 모델 카드와 컬렉션 페이지를 제공하고, 논문은 arXiv에 게시되었습니다. arXiv에는 공식 발표 게시물과 주요 사항 요약이 있습니다.

KimiLinear 선형 주의 KimiLinearKDA 커널 오픈 소스 KimiLinearMLA 하이브리드 아키텍처 KimiLinear 기술 보고서 발표 KimiLinear 오픈 웨이트 다운로드 키미리니어허깅얼굴 체크포인트 KimiLinear48B 매개변수 모델 KimiLinearA3B가 3B를 활성화합니다 KimiLinear는 1M 컨텍스트를 지원합니다. KimiLinearKV 캐시가 75% 감소했습니다. KimiLinear 디코딩 처리량 6배 짧은 맥락과 긴 맥락에서 KimiLinear의 장점 KimiLinearRL 작업 성능 KimiLinearvLLM 원클릭 통합 KimiLinear 추론 예제 코드 키미리니어델타어텐션 KimiLinearGatedDeltaNet 개선 사항 KimiLinear 하이브리드 선형 아키텍처 KimiLinear 총 주의력 비교 KimiLineardropin 교체 KimiLinear 배치 및 사전 충전 KimiLinear 지연 처리량 평가 KimiLinearGPU 아키텍처 적응 KimiLinear 서비스 프레임워크 배포 KimiLinearMoonshotAI 출시 KimiLinear 공식 자료의 주요 내용 KimiLineararXiv 기술 문서 KimiLinearBase 저작권 침해 KimiLinearInstruct 가중치 KimiLinear의 훈련 공식은 동일합니다. KimiLinear는 품질과 효율성을 균형 있게 유지합니다. KimiLinear 장 시퀀스 추론 KimiLinear 엔터프라이즈 구현 평가 KimiLinearKV 메모리 최적화 KimiLinear는 추론 비용을 줄입니다. KimiLinear의 매우 긴 컨텍스트 KimiLinear 하이브리드 어텐션 레이어 KimiLinear 오픈 소스 저장소 GitHub KimiLinear 모델 카드 해석 KimiLinearA/B 실험 가이드 KimiLinear 배포 모범 사례 KimiLinear 스트리밍 디코딩 성능 KimiLinear 검색 향상 시나리오 KimiLinear 코드 및 수식 KimiLinear 정렬 vLLM 버전 KimiLinear 서비스 안정성 KimiLinear 보안 및 규정 준수 KimiLinear 생태계 통합 진행 상황 KimiLinear 커뮤니티 재생산 결과 KimiLinear 자주 묻는 질문 요약

추천 도구

더보기