DeepSeek ouvre les composants d’accélération DSpark : le modèle n’a pas changé, mais pourquoi la vitesse de génération s’améliore-t-elle ?

Le 28 juin 2026, le dépôt officiel DeepSpec pour DeepSeek a été mis à jour et ajouté au point de contrôle DSpark, offrant un support du décodage spéculatif pour DeepSeek-V4-Flash et V4-Pro. L’explication officielle est que DSpark n’est pas un nouveau modèle, mais qu’un module provisoire pour la « devinette anticipée » a été ajouté à côté du modèle existant, visant à réduire les temps d’attente de la génération sans modifier la distribution de sortie du modèle principal.

Comment cela fait tourner le même modèle plus vite

La génération autorégressive conventionnelle nécessite que le modèle principal prédise le jeton suivant un par un, chaque étape nécessitant un calcul coûteux. Le décodage spéculatif permet d’abord aux modules de draft plus légers de lister en lot des candidats, qui sont ensuite validés en parallèle par le modèle principal ; Les bonnes suppositions peuvent être reçues d’un coup, et si elles sont incorrectes, le modèle principal les corrige. Ainsi, l’accélération provient d’étapes sérielles qui réduisent le modèle principal, plutôt que de diminuer la qualité des réponses ou de quantifier le modèle en une taille plus petite.

DSpark utilise une méthode de génération semi-auto-régressive, combinant un dorsal parallèle avec des têtes séquentielles légères. Les données officielles de production montrent que sur DeepSeek-V4-Flash, la vitesse de génération par utilisateur augmente de 60 % à 85 % par rapport à la base de MTP-1 ; Le V4-Pro a augmenté de 57 % pour atteindre 78 %. Ces chiffres sont des résultats officiels pour des configurations matérielles spécifiques, des lots et des services et ne peuvent pas être directement traduits en ratios d’accélération fixes pour tous les déploiements.

Plus de deux points de contrôle sont ouverts

DeepSpec est une base de code complète pour la formation et l’évaluation, incluant des solutions de décodage spéculatif telles que DSpark, DFlash et Eagle3, et fournit des composants de traitement, de formation et d’évaluation des données sous licence MIT. Les checkpoints V4-Flash-DSpark et V4-Pro-DSpark sont également disponibles dans l’espace officiel Hugging Face de DeepSeek.

Cela signifie que les équipes ayant des besoins d’inférence à grande échelle peuvent reproduire des méthodes d’entraînement plutôt que de simplement télécharger un fichier d’accélération emballé. Cependant, la barrière n’a pas disparu : V4 lui-même est très grand, et le déploiement nécessite encore une mémoire vidéo élevée, une communication multi-cartes et une adaptation du cadre d’inférence ; Le module de projet consomme également de la VAM supplémentaire, les bénéfices finaux dépendant du taux d’acceptation des candidats, de la concurrence des requêtes et de la longueur de la sortie.

Quel impact cela a-t-il sur les utilisateurs d’API ordinaires ?

Les utilisateurs ordinaires n’ont pas besoin de modifier les invites, ni de se fier uniquement aux points de contrôle open source pour confirmer que l’API officielle a pleinement activé DSpark. La valeur vraiment perceptible est un temps d’attente initial plus court et une vitesse de génération par utilisateur plus élevée, mais si cela se reflète dans les limites de prix et de tarif dépend toujours du fournisseur de services. Pour les équipes personnalisées, il est recommandé de comparer d’abord vos requêtes typiques avec des jetons par seconde, la latence P95, l’utilisation de la mémoire et la cohérence des réponses avant de décider s’il faut changer.

Source officielle

Dépôt officiel DeepSeek DeepSpec ; Page officielle du modèle DeepSeek-V4-Flash-DSpark.

Comment cela fait tourner le même modèle plus vite

Plus de deux points de contrôle sont ouverts

Quel impact cela a-t-il sur les utilisateurs d’API ordinaires ?

Source officielle

Articles connexes

Grok 4.5 entre dans les tests privés de SpaceX et Tesla : Examinons d’abord trois incertitudes

L’attention de l’Apple Vision Pro se tourne vers OpenAI : la compétition matérielle d’IA se déplace vers les talents en ingénierie

MWC Shanghai accueille la séance de tirs au but des robots : une intelligence incarnée s’installe dans le lieu public de l’examen

Codex prend en charge le contrôle Windows : les agents de programmation IA entament une collaboration multiplateforme

Outils Recommandés

DeepSeek ouvre les composants d’accélération DSpark : le modèle n’a pas changé, mais pourquoi la vitesse de génération s’améliore-t-elle ?

Comment cela fait tourner le même modèle plus vite

Plus de deux points de contrôle sont ouverts

Quel impact cela a-t-il sur les utilisateurs d’API ordinaires ?

Source officielle

Articles connexes

Grok 4.5 entre dans les tests privés de SpaceX et Tesla : Examinons d’abord trois incertitudes

L’attention de l’Apple Vision Pro se tourne vers OpenAI : la compétition matérielle d’IA se déplace vers les talents en ingénierie

MWC Shanghai accueille la séance de tirs au but des robots : une intelligence incarnée s’installe dans le lieu public de l’examen

Codex prend en charge le contrôle Windows : les agents de programmation IA entament une collaboration multiplateforme

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission