2026年6月28日、DeepSeekの公式DeepSpecリポジトリが更新され、DSparkチェックポイントに追加され、DeepSeek-V4-FlashおよびV4-Proの推測的復号サポートが提供されました。 公式説明では、DSparkは新しいモデルではなく、既存のモデルの隣に追加された「アドバンス・ゲスング」用のドラフトモジュールであり、メインモデルの出力分布を変えずに世代待ち時間を短縮することを目指しています。
同じモデルをより速く動かす方法
従来の自己回帰生成では、主モデルが次のトークンを一つずつ予測し、各ステップで高価な計算が必要です。 まず推測的復号は、軽量なドラフトモジュールが候補をバッチリスト化し、それをメインモデルによって並列で検証することを可能にします。 正しい推測は一度に受け取ることができ、間違えればメインモデルがそれを修正します。 したがって、加速は回答の品質を下げたりモデルを小さく量化するのではなく、メインモデルを小さくする連続ステップから生まれます。
DSparkは、パラレルバックボーンと軽量シーケンシャルヘッドを組み合わせた半自己回帰生成法を採用しています。 公式の生産データによると、DeepSeek-V4-FlashではMTP-1の基準と比べてユーザーあたりの生成速度が60%から85%増加しています。 V4-Proは57%増の78%となりました。 これらの数値は特定のハードウェア、バッチ、サービス構成に関する公式結果であり、すべての展開における固定された速度アップ比率に直接変換することはできません。
開いている検問所は2つだけでなく
DeepSpecは、DSpark、DFlash、Eagle3などの推測的なデコードソリューションを含む完全なトレーニングおよび評価コードベースであり、MITライセンスの下でデータ処理、トレーニング、評価コンポーネントを提供します。 付随するV4-Flash-DSparkおよびV4-Pro-DSparkのチェックポイントもDeepSeekの公式Hugging Faceスペースで利用可能です。
これにより、大規模な推論を必要とするチームは、単にパッケージ化されたアクセラレーションファイルをダウンロードするのではなく、トレーニング手法を再現できるのです。 しかし、障壁は消えていません。V4自体は非常に大規模であり、展開には依然として高容量のビデオメモリ、マルチカード通信、推論フレームワークの適応が必要です。 ドラフトモジュールは追加のVRAMも消費し、最終的なメリットは候補の受け入れ率、要求の同時実行率、出力の長さに依存します。
一般のAPIユーザーにどのような影響があるのでしょうか?
一般ユーザーはプロンプトを変更する必要もなく、公式APIがDSparkを完全に有効にしているかどうかを確認するためにオープンソースのチェックポイントだけに頼ることはできません。 真に感じられる価値は、初期出力待ち時間の短縮とユーザーあたりの発電速度の向上ですが、これが価格やレート制限に反映されるかどうかはサービスプロバイダーによって異なります。 カスタムチームの場合は、切り替えを決める前に、まず典型的なリクエスト数をトークン数、P95遅延、メモリ使用量、回答の一貫性と比較することをお勧めします。