LongCat-Flash-Lite 해석: N-그램 임베딩을 이용한 희소 MoE의 새로운 효율성 경로
1. 초록 LongCat-Flash-Lite는 고희소성 MoE 시나리오를 대상으로 한 오픈 소스 대형 모델로, 총 매개변수는 68.5B이지만, 토큰당 활성화되는 것은 약 2.9B~4.5B에 불과합니다. 핵심 아이디어는 MoE 전문가 수를 계속 늘리는 것이 아니라, 특정...
AI는 오픈 소스입니다. • Admin •
85
Found 1 related articles