2026年6月28日、イーロン・マスクはXで、Grok 4.5がSpaceXとテスラによる内部テストに入ったと発表しました。 開示によると、このバージョンは1.5兆パラメータのV9ベースモデルを基にしており、補助トレーニングにカーソル関連データが含まれています。初期の評価ではOpusに近く、あるいはそれを上回る可能性があると記述されていました。 現時点でより正確な評価は、Grok 4.5は実際の企業検証に入ったものの、まだ公式リリースや独立した評価には至っていないということです。
パラメータ番号よりもプライベートな測定位置の方が注目に値します
SpaceXとTeslaはそれぞれエンジニアリングの研究開発、製造、車両ソフトウェア、そして広範な社内知識プロセスを有しています。 このモデルがこれら2社でテストされれば、チャットのパフォーマンスだけでなく、コード生成、長時間のタスク実行、社内データ検索、ツール呼び出しも含まれる可能性があります。 xAIにとって、このような環境は権限、安定性、複雑なワークフローの問題を迅速に露呈させ、その後のプロダビズミングのためのフィードバックを蓄積できます。
カーソルデータの追加もプログラミング能力を示していますが、「どのデータが追加され、どの承認範囲が適用され、どの割合が現在公表されていないか」が示唆されています。 パラメータ量はあくまでサイズ情報であり、回答の質、推論効率、使用コストを直接証明することはできません。
「Opusへの接近」は現時点で開発者の判断に過ぎません
マスクはここでどのバージョンのOpusを指すか、レビューセット、サンプルサイズ、テスト条件についても明かしていません。 モデルが内部タスクで優れているからといって、一般的なQ&Aやコードリポジトリの変更、長期コンテキストタスクで優れているわけではありません。 特にプライベートテスト段階では、システムプロンプト、ツールチェーン、推論予算が結果に大きな影響を与えます。
したがって、この段階でモデルを移行するのは適切ではありません。 エンタープライズ開発者が本当に待つべきは、APIがオープンかどうか、コンテキストの長さと価格、レート制限、ツール呼び出しのパフォーマンス、そして再現可能な第三者レビューかどうかです。
この動きはどんなシグナルを送っているのでしょうか?
Grokの競争焦点は単一モデルリリースから「モデルとエンタープライズシナリオと実行フレームワーク」へとシフトしています。 マスクはまた、Grok Buildツールチェーンの継続的な改善についても言及し、SpaceXは今年、毎月新しいモデルをトレーニングする計画だと述べました。 高頻度の反復はフィードバックサイクルを短縮する一方で、バージョンの安定性や移行コストの問題ももたらします。 Grok 4.5が正式にリリースされた場合、使用する価値があるかどうかを判断するには、パラメータ数や開発者の水平評価だけでなく、実際のタスク成功率を見てください。