La nouvelle version du modèle Tab de Cursor est maintenant disponible : l’apprentissage par renforcement en ligne rend les suggestions moins précises et plus acceptables

Cursor a annoncé que le nouveau modèle Tab est le modèle par défaut : en utilisation réelle, le nombre de suggestions d’onglets est réduit d’environ 20 %, et la probabilité que les suggestions soient acceptées est considérablement augmentée. L’approche de base consiste à boucler la boucle de l’apprentissage par renforcement en ligne et de l’évaluation sur site, en intégrant des suggestions d’édition de code « moins précises mais précises » dans le développement quotidien.

1. Conclusions et principes clés

1. Moins d’invites mais plus utilisables

La nouvelle version de Tab apprend dans le flux de codage réel, réduisant ainsi le nombre global de suggestions et réduisant les distractions des développeurs. Dans le même temps, les taux d’acceptation ont considérablement augmenté et la complétion du code est plus contextuelle et plus intentionnelle.

2. Mécanisme d’apprentissage par renforcement en ligne

Cursor adopte l’apprentissage par renforcement en ligne, en utilisant des gradients de politique et des données de politique en cours, et optimise directement les onglets avec les commentaires en temps réel des développeurs. Cette méthode aligne « l’acceptabilité des scénarios du monde réel » plus rapidement que le réglage fin hors ligne.

2. Points clés pour

une

mise en œuvre axée sur l’équipe 1. Passez des indicateurs « plus à bien »

Déplacez l’évaluation du nombre de suggestions vers le taux d’acceptation, le taux de secours et les révisions post-édition, établissez une base de référence au niveau de l’équipe et mesurez la véritable contribution de Tab à la qualité et à la fluidité du code.

2. Gestion de la granularité des invites et des fichiers

Créez

des modèles d’invites distincts pour les répertoires clés et les fichiers de test dans les grands entrepôts. Activez le saut inter-fichiers et l’édition longue portée pour les modifications multi-fichiers afin de réduire le coût des allers-retours.

3. Chemin pratique

(1) Configuration et niveaux de gris

Tout d’abord, activez la nouvelle version de Tab dans le langage de base et les niveaux de gris des projets clés, puis étendez la couverture et conservez l’ancienne version à des fins de comparaison.

(2) Observation et régression

Enregistrer le taux d’acceptation des suggestions, le taux de révocation et le taux de défauts après soumission par régression hebdomadaire ; Établissez des règles d’exclusion pour les contextes d’exception.

(3) Collaboration et spécification

Unifiez les styles de code et les modèles de test, ce qui permet à Tab d’apprendre des signaux d’édition cohérents et de réduire les « interférences de style ».

4. Différences par rapport aux produits concurrents ou aux anciennes versions

(1) Convergence rapide apportée par l’apprentissage en ligne

: Tab converge plus rapidement sur la trajectoire réelle de codage et met à jour en permanence la structure de l’entrepôt et les habitudes de l’équipe.

(2) L’orientation « Action suivante »

ne se contente pas de compléter le texte, mais prédit également les chemins d’édition et de saut, ce qui est proche du lien d’opération réel des ingénieurs.

Foire aux questions Q :

Quels sont les avantages directs de la nouvelle version de Cursor Tab par rapport à l’ancienne version

A : Avec la même quantité de codage, les suggestions de Tab sont moins nombreuses mais les résultats sont plus élevés, et le taux d’acceptation moyen est considérablement amélioré, ce qui réduit les interférences et les erreurs de complétion. Améliorez l’efficacité de l’édition cohérente.

Q : Pourquoi l’apprentissage par renforcement en ligne améliore-t-il l’acceptation des onglets R

: L’apprentissage par renforcement en ligne est utilisé pour optimiser directement les stratégies à l’aide de données stratégiques et d’un retour d’information immédiat, rapprochant ainsi le modèle des « actions acceptables » des flux de travail réels, plutôt que de se contenter de rechercher la similitude linguistique.

Q : Comment l’équipe devrait-elle évaluer l’efficacité de la nouvelle version de l’onglet

A : Établir un contrôle A et B de deux semaines en utilisant le taux d’acceptation, le taux de révocation, le volume de révision après la soumission et le temps passé comme principaux indicateurs ; Surveillez la stabilité des modifications multi-fichiers en même temps.

Q : Existe-t-il des suggestions de configuration spéciales pour les grands dépôts et les projets multilingues

R : Configurez des règles exclusives et des modèles de test pour les langues courantes et les répertoires clés ; Activez l’édition et le saut entre fichiers, combinés à une configuration de style de code unifiée, pour des onglets plus stables et plus précis.

Articles connexes

checkpoint-engine open source : « mise à jour du poids sur place » du côté de l’inférence LLM, réduisant le cycle d’entraînement-lancement RL au deuxième niveau

Tutoriel HuggingChat : dialogue multi-modèles, amélioration de la récupération et optimisation des coûts

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés