Cursor a publié un article de blog sur la mise à niveau du framework agent pour le dernier modèle de codage d’OpenAI, GPT-5.1-Codex-Max. L’équipe a construit un système de test d’agents plus robuste autour de la suite d’évaluation interne Cursor Bench, optimisant les performances du Codex dans l’environnement Cursor selon plusieurs dimensions telles que le taux de réussite, la capacité d’appel d’outils et les données d’utilisation réelle, afin de permettre à cette variante de modèle de s’entraîner au codage intelligent asana.
En ce qui concerne les changements spécifiques, Cursor rapproche la nommisation et la sémantique des outils des commandes shell, encourage les modèles à appeler d’abord les outils intégrés plutôt que d’émettre directement des commandes shell, et s’appuie sur des mécanismes de sandboxing pour contrôler les risques d’accès aux fichiers et au réseau. Pour les « résumés d’inférence » spécifiques au Codex, l’équipe définissait des spécifications de longueur et de fréquence, supprimant les invites pour les conversations avec les utilisateurs au milieu afin d’améliorer la qualité du code final. En même temps, il améliore la gestion des erreurs de linter et guide le modèle pour détecter et corriger automatiquement les problèmes à l’aide de read_lints outils après des modifications importantes grâce à des instructions explicites.
Cursor souligne également la nécessité de préserver la trajectoire d’inférence interne du Codex entre plusieurs appels d’outils afin de maintenir la continuité planifiée dans les tâches à long lien et de déclencher des alarmes en cas de trajectoires manquées afin d’éviter une dégradation significative des performances. En termes de politique d’interaction, le modèle est encouragé par défaut à agir directement pour écrire du code ou appeler des outils lorsque l’utilisateur ne demande pas explicitement « ne fournir que la solution », et à réorganiser l’ordre des messages système et utilisateur pour éviter les conflits entre des invites telles que « sauvegarder les jetons » et l’objectif réel de la tâche, affectant la volonté de l’agent d’exécuter.
FAQ
Q : Quel est le cœur de cette mise à jour du Curseur pour Codex ?
R : La tâche principale est de construire un cadre plus robuste de test et d’exécution d’agents pour GPT-5.1-Codex-Max, incluant la configuration des outils d’ajustement, les invites, les trajectoires d’inférence et l’ordre des messages.
Q : Pourquoi le nom de l’outil devrait-il être plus proche de la coque ?
R : Comme Codex repose fortement sur les workflows shell pour l’entraînement, cela aide le modèle à utiliser l’outil Curseur plus naturellement, plutôt que de retomber dans des commandes shell blunt ou des scripts en ligne.
Q : Quel est l’impact du maintien des « pistes d’inférence » sur les utilisateurs ?
R : Cela permet au modèle de maintenir un plan clair à moyen et long terme lors de plusieurs appels d’outils, réduisant ainsi l’oubli des sous-objectifs et les dérivations répétées, et améliorant le taux de réussite des réparations complexes.
Q : Comment Cursor guide-t-il Codex pour corriger automatiquement l’erreur de peluches ?
R : Appelez l’outil read_lints pour vérifier les fichiers récemment modifiés après avoir effectué des modifications substantielles en les sollicitant clairement, et laissez l’agent les corriger lorsqu’il pourra facilement juger du plan de correction.
Q : Que signifie cette mise à niveau pour les utilisateurs réguliers de Cursor ?
R : Les utilisateurs peuvent s’attendre à des modifications de code plus proactives, moins d’interactions invalides et des résultats plus stables lors de grands scénarios de refactorisation et de correction en plusieurs étapes lorsqu’ils utilisent le modèle Codex.