Moonshot AI는 Kimi Linear 기술 보고서와 공개 가중치를 발표하며 핵심 구성 요소인 Kimi Delta Attention(KDA) 선형 어텐션 모듈과 선형 및 전체 어텐션(MLA)을 결합한 계층적 하이브리드 아키텍처를 강조했습니다. 2025년 10월 30일 제출된 이 기술 보고서는 동일한 학습 레시피와 규모에서 Kimi Linear가 짧은 컨텍스트, 긴 컨텍스트, 그리고 강화학습(RL) 스타일 작업에서 순수 MLA보다 우수한 성능을 보인다고 밝혔습니다. 또한 키-값 캐시 사용량을 최대 75% 줄이고, 100만 개의 컨텍스트 길이를 사용하여 디코딩 처리량을 최대 6배 향상시켰습니다. 또한, 이 보고서는 KDA 커널을 오픈소스로 공개하고 vLLM 통합 및 추론 예제를 제공합니다.
Hugging Face는 Kimi-Linear-48B-A3B(Base 및 Instruct) 체크포인트를 출시했습니다. 이 체크포인트는 약 48바이트의 총 매개변수와 약 3바이트의 활성화 매개변수에 주석을 달고 1M 컨텍스트를 지원합니다. GitHub 저장소는 KDA 연산자와 하이브리드 아키텍처 구현을 제공하며, vLLM 문서에는 KDA 페이지와 통합 레코드가 추가되었습니다. 위에 언급된 성능 및 비용 절감 지표는 기술 보고서와 공식 자료에서 발췌한 것이며, 외부 재현 실험은 아직 진행 중입니다. 배포를 평가할 때, 독자는 자체 하드웨어, 일괄 처리 및 사전 채우기 전략을 기반으로 실제 처리량과 지연 시간을 확인할 수 있습니다.
자주 묻는 질문
질문: 키미리니어의 주요 혁신은 무엇인가요?
A: KDA(Gated DeltaNet의 세분화된 게이팅 개선)를 도입하고 KDA와 MLA를 계층별로 혼합하여 품질과 하드웨어 효율성의 균형을 맞추는 "하이브리드 선형 아키텍처"를 채택합니다.
질문: 완전한 집중과 비교했을 때 어떤 점이 더 향상되나요?
답변: 보고서는 동일한 학습 공식에서 전반적인 품질이 더 우수하고, KV 캐시가 최대 75% 감소하고, 1M 컨텍스트에서 디코딩 처리량이 최대 6배 증가한다고 명시하고 있습니다. 이는 공식 보고서에 나와 있는 측정 결과입니다.
질문: 오픈소스로 공개되었나요?
A: KDA 커널과 vLLM 구현을 오픈소스로 공개하고, 공개 가중치(Base/Instruct)를 제공했습니다. 이는 Hugging Face와 GitHub에서 확인하실 수 있습니다.
질문: 기존의 전체 주의 추론을 직접 대체할 수 있나요?
A: 공식적으로는 "즉시 대체"로 제시되지만, 실제 이점은 모델 크기, 배치 크기, GPU 아키텍처 및 서비스 프레임워크에 따라 달라집니다. 대상 워크로드에 대해 A/B 검증을 수행하는 것이 좋습니다.
질문: 어떤 통합과 리소스를 이용할 수 있나요?
A: vLLM은 KDA 지원에 통합되었습니다. Hugging Face는 모델 카드와 컬렉션 페이지를 제공하고, 논문은 arXiv에 게시되었습니다. arXiv에는 공식 발표 게시물과 주요 사항 요약이 있습니다.