CursorはOpenAIの最新コーディングモデルであるGPT-5.1-Codex-Maxのエージェントフレームワークアップグレードについてブログ記事を公開しました。 チームは内部評価スイートCursor Benchを中心に、成功率、ツール呼び出し能力、実際の使用データなど多面的にCodexのパフォーマンスを最適化し、インテリジェントなAsanaコーディングトレーニングにおいてこのモデルバリアントを最大限に活用できるように、より堅牢なエージェントテストシステムを構築しました。
具体的な変更点としては、Cursorはツール名やセマンティクスをシェルコマンドにより近づけ、モデルが直接シェルコマンドを発行するのではなく、まず組み込みツールを呼び出すことを推奨し、ファイルやネットワークへのアクセスリスクを制御するためにサンドボックスメカニズムに依存しています。 Codex特有の「推論要約」では、チームは長さと頻度の仕様を設定し、中間でユーザーとの会話のプロンプトを排除して最終コードの品質を向上させました。 同時に、リンターエラーの処理を強化し、重要な変更後に明示的な指示を通じてread_lintsツールを使って問題を検出・自動修正するようモデルに導きます。
ソルはまた、複数のツール呼び出し間でCodexの内部推論軌跡を保持し、ロングリンクタスクの計画的な連続性を維持し、軌道を逃した際にはアラームをトリガーして著しい性能低下を防ぐ必要性を強調しています。 インタラクションポリシーの観点から、モデルはデフォルトでユーザーが明示的に「解決策だけを提示してほしい」と要求しない場合、コードを書いたりツールを呼び出したり、システムやユーザーメッセージの順序を再構成して「トークンの保存」などのプロンプトと実際のタスク目標の競合を避けるように促しています。これによりエージェントの実行意欲が低下します。
FAQ
Q: このCodexのカーソルアップデートの核は何ですか?
A: 主な課題は、GPT-5.1-Codex-Max向けに、ツールの設定、プロンプト、推論軌跡、メッセージの順序など、より堅牢なエージェントテストおよび実行フレームワークを構築することです。
Q: なぜ道具名は外殻に近いものなのでしょうか?
A: Codexは訓練にシェルワークフローに大きく依存するため、モデルがCursorツールをより自然に使い、単純なシェルコマンドやインラインスクリプトに頼るのを防ぎます。
Q: 「推論トラック」を保持することがユーザーに与える影響は何ですか?
A: 複数のツールコール中でも明確な中長期計画をモデルに維持でき、サブ目標の忘れや繰り返される導出を減らし、複雑な修理タスクの成功率を向上させます。
Q: カーソルはどのようにしてコデックスをガイドしてリントエラーを自動的に修正しますか?
A: 実質的な編集を完了した後、read_lintsツールに連絡して最近修正したファイルを明確に促し、修正計画を判断できるエージェントに修正してもらう。
Q: このアップグレードは、通常のCursorユーザーにとって何を意味するのでしょうか?
A: Codexモデルを使うと、より積極的なコード修正、無効なインタラクションの減少、大規模なリファクタリングや多段階の修正シナリオでの安定した結果が期待できます。