2026년 6월 28일, DeepSeek의 공식 DeepSpec 저장소가 업데이트되어 DSpark 체크포인트에 추가되어 DeepSeek-V4-Flash와 V4-Pro에 대한 추측적 디코딩 지원을 제공했습니다. 공식 설명에 따르면 DSpark는 새로운 모델이 아니라, 기존 모델 옆에 "사전 추측" 모듈을 추가한 것으로, 메인 모델의 출력 분포를 변경하지 않으면서 세대 대기 시간을 단축하는 것을 목표로 합니다.
같은 모델이 더 빠르게 돌아가는 방법
기존의 자기회귀 생성은 주 모델이 다음 토큰을 하나씩 예측해야 하며, 각 단계마다 비용이 많이 드는 계산이 필요합니다. 먼저 가변 디코딩은 가벼운 초안 모듈이 후보를 배치 목록화할 수 있게 하며, 이후 메인 모델에서 병렬로 검증합니다; 정답 추측은 한 번에 받을 수 있으며, 틀렸을 경우 주 모델이 이를 수정합니다. 따라서 가속은 답변 품질을 낮추거나 모델을 더 작은 크기로 정량화하는 것이 아니라, 주요 모델을 줄이는 직렬 단계에서 이루어집니다.
DSpark는 병렬 백본과 경량 순차 헤드를 결합한 반자기회귀 생성 방식을 사용합니다. 공식 생산 데이터에 따르면, DeepSeek-V4-Flash에서는 MTP-1 기준선에 비해 사용자당 생성 속도가 60%에서 85% 증가합니다; V4-Pro는 57% 증가해 78%가 되었습니다. 이 수치는 특정 하드웨어, 배치, 서비스 구성에 대한 공식 결과이며, 모든 배포에 대한 고정된 속도 향상 비율로 직접 변환할 수 없습니다.
두 개의 검문소만 열려 있지 않다
DeepSpec은 DSpark, DFlash, Eagle3와 같은 추측적 디코딩 솔루션을 포함한 완전한 교육 및 평가 코드베이스이며, MIT 라이선스 하에 데이터 처리, 교육 및 평가 구성 요소를 제공합니다. 동반된 V4-플래시 DSpark와 V4-Pro-DSpark 체크포인트도 DeepSeek의 공식 Hugging Face 공간에서 이용할 수 있습니다.
즉, 대규모 추론이 필요한 팀이 단순히 패키지된 가속 파일을 다운로드하는 대신 훈련 방법을 재현할 수 있다는 뜻입니다. 하지만 장벽은 사라지지 않았습니다: V4 자체가 매우 크고, 배포에는 여전히 높은 비디오 메모리, 다중 카드 통신, 추론 프레임워크 적응이 필요합니다; 초안 모듈은 추가 VRAM을 소모하며, 최종 이점은 후보 승인률, 요청 동시성, 출력 길이에 따라 달라집니다.
일반 API 사용자에게 어떤 영향을 미치나요?
일반 사용자는 프롬프트를 변경할 필요도 없으며, 공식 API가 DSpark를 완전히 활성화했는지 확인하기 위해 오픈소스 체크포인트에만 의존할 수도 없습니다. 실제로 눈에 띄는 가치는 초기 출력 대기 시간이 짧고 사용자당 발전 속도가 더 빨라지는 것이지만, 이것이 가격 및 요금 제한에 반영되는지는 여전히 서비스 제공자에 따라 다릅니다. 커스텀 팀의 경우, 전환 여부를 결정하기 전에 먼저 토큰 수, P95 지연, 메모리 사용량, 답변 일관성을 비교하는 것이 좋습니다.