Avec les rumeurs autour de GPT-6, le marché a récemment concentré non seulement sur la nommation du modèle, mais aussi sur l'offre de puissance informatique derrière AI Agent. La révélation affirme qu 'il peut avoir 2 millions de contextes de jetons, une multimodité native et fusionner ChatGPT, Codex et les capacités du navigateur en une superapplication. Le vrai ou le faux reste à confirmer, mais cet ensemble d'indices pointe vers le même problème : les modèles de pointe commencent à être définies à l'infrastructure.
Le véritable point de vue derrière les rumeurs de GPT - 6
Le contexte de jeton 2M, l'entrée d'agent unifié et les prix inférieurs ressemblent à une mise à niveau du produit, mais sont plus comme une déclaration de capacité de service.
parce que lorsque les modèles commencent à fonctionner à long terme, les appels multi-outils et les tâches intermodales, la concurrence ne se concentre plus sur « si », mais sur « s'il peut fournir de manière stable ».
Anthropic a exposé la pression en premier
Anthropic a récemment resserré l'accès aux outils tiers, interprété par le marché comme une charge proxy qui affecte le modèle de capacité existant. Les abonnements, qui étaient à l'origine adaptés au chat et aux appels légers, sont rapidement déséquilibrés dans les tâches de proxy de liaison longue.
C'est pourquoi l'industrie commence à montrer des signes de « quota ». Ce n'est pas une régression soudaine du modèle, mais plutôt une charge de travail agentistique intense qui oblige la plate-forme à réécrire les règles de distribution.
La nature du contexte 2M est un problème de matériel
Le contexte ultra-long n'est pas simplement un peu plus de jetons. Cela augmente directement la pression du cache KV, l'occupation de la mémoire, les besoins en bande passante de mémoire et la complexité de la planification du système.
Une fois que le multimodalité natif est superposé à l'exécution continue, le goulot d'étranglement passe du côté de l'apprentissage au côté de l'inférence. Celui qui peut exécuter ce type de tâche de manière régulière a vraiment le billet pour la prochaine génération de plateformes d'IA.
La course au modèle devient une course à l'offre
La route de la superapp dans la rumeur d'OpenAI et le trade-off de la charge d'agent d'Anthropic illustrent la même chose : le modèle, le logiciel et le matériel ne peuvent plus être vus séparément.
La prochaine étape n'est pas de savoir qui crie GPT - 6 en premier, mais de savoir qui transforme le long contexte, la collaboration multi-outils et l'exécution continue en services évolutifs en premier Cette bataille, en surface, est comparée au modèle, mais au fond est comparée à la capacité de livraison de la puissance informatique.