Le curseur réécrit le chemin de décodage MoE sur Blackwell, augmentant la vitesse de 1,84x pour accélérer les itérations du compositeur

Cursor a récemment révélé qu 'il a reconfiguré le chemin de génération de jetons du modèle MoE sur le GPU et a nommé cette méthode décodage de warp. L'optimisation sous-jacente a permis une augmentation du débit d'inférence de 1,84 fois, tout en rapprochant la sortie de la valeur de référence du FP32, et les améliorations ont également été utilisées dans le processus de formation du compositeur pour accélérer les itérations du modèle et la publication de version.

Cursor a réécrit le décodage de MoE

Le cœur de cette mise à jour n'est pas simplement un GPU plus rapide pour le modèle, mais une réécriture de la façon dont MoE décode sur Blackwell. Alors que le schéma traditionnel organise les calculs en experts, le curseur inverse l'axe parallèle sur les sorties, laissant chaque warp responsable d'une valeur de sortie au lieu de tourner autour de la route d'expert.

Cet ajustement cible les scénarios de décodage en petits lots. Lorsque le modèle MoE génère un seul jeton, il y a beaucoup d'étapes qui sont consommées à l'organisation des données, à la manipulation et au tampon intermédiaire, et le pourcentage réel utilisé pour le calcul n'est pas élevé. Le but du décodage de warp est de supprimer ces liens supplémentaires autant que possible.

1.84x plus de vitesse est derrière le raccourcissement des liens d'inférence

Selon Cursor, le décodage de warp comprime toute la couche de calcul MoE en deux noyaux : _ _ CODE_INLINE_0 _ _ et _ _ CODE_INLINE_1 _ _. Le chemin d'inférence est plus court que les scénarios traditionnels centrés sur les experts, sans compter sur plusieurs étapes, la synchronisation à travers les warps et les tampons supplémentaires.

Plus important encore, cette optimisation ne s'arrête pas à « plus vite ». Dans le même temps, le fonctionnaire souligne que les résultats de sortie sont plus proches de la valeur de référence FP32, ce qui rend le décodage de warp non seulement une optimisation du débit, mais aussi plus comme une reconstruction sous-jacente qui tient compte des performances numériques. Pour les modèles de génération de code, la stabilité est souvent aussi importante que la vitesse.

`Composer commence à manger le dividende de l'optimisation au niveau système`

Le curseur a lié cette mise à jour directement à Composer dans la représentation originale. La logique officielle est claire : les données de pré - formation et les RL déterminent les limites supérieures du modèle, mais l'efficacité des liens d'inférence affecte la vitesse à laquelle la recherche, la formation et les commentaires de validation se déroulent, ce qui affecte le rythme des mises à jour de la version de Composer.

   Cela explique également pourquoi le curseur met l'accent uniquement sur ce travail d'ingénierie. Pour les entreprises d'IA, l'optimisation du noyau sous-jacent n'est pas seulement une amélioration de l'infrastructure ; elle affecte à son tour la vitesse de développement du modèle, la fréquence de publication et, finalement, l'expérience livrée aux développeurs.
La réécriture du décodeur MoE autour des GPU Blackwell montre que la concurrence des grands modèles revient à l'efficacité de l'exécution inférieure. Cursor ne parle pas de plus grande échelle de paramètres cette fois-ci, mais se concentre sur le débit, la précision et la vitesse d'itération. Pour Composer, la capacité de ces optimisations au niveau du système à se traduire en mises à jour plus rapides est probablement plus intéressante qu 'un changement de nommage de version unique.

Cursor a réécrit le décodage de MoE

1.84x plus de vitesse est derrière le raccourcissement des liens d'inférence

`Composer commence à manger le dividende de l'optimisation au niveau système`

Articles connexes

Rapport d'actualités d'IA 24 heures : accélération de la nouvelle infrastructure de puissance informatique, chauffage des puces à l'étranger et anti-abus

Qu’est-ce qu’un agent IA ? Quelle est la différence entre les chatbots et les flux de travail de l’IA ?

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Le curseur réécrit le chemin de décodage MoE sur Blackwell, augmentant la vitesse de 1,84x pour accélérer les itérations du compositeur

Cursor a réécrit le décodage de MoE

1.84x plus de vitesse est derrière le raccourcissement des liens d'inférence

Composer commence à manger le dividende de l'optimisation au niveau système

Articles connexes

Rapport d'actualités d'IA 24 heures : accélération de la nouvelle infrastructure de puissance informatique, chauffage des puces à l'étranger et anti-abus

Qu’est-ce qu’un agent IA ? Quelle est la différence entre les chatbots et les flux de travail de l’IA ?

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission

`Composer commence à manger le dividende de l'optimisation au niveau système`