Le concept de modèle mondial est récemment redevenu populaire, non seulement dans les milieux universitaires, mais aussi chez les personnes qui pratiquent des agents, la conduite autonome, les robots et la génération vidéo. Le cœur du soi-disant modèle mondial n’est pas de faire parler davantage l’IA, mais de la laisser former une représentation interne prévisible de l’environnement, des changements d’état, de la causalité et de ce qui va se passer ensuite. En d’autres termes, elle veut résoudre la question plus profonde : « l’IA comprendra-t-elle le monde ? »
Les grands modèles de langage sont bons pour l’expression écrite, mais ils ne sont pas naturellement bons pour les relations spatiales, les changements d’objets et l’évolution temporelle dans le monde réel. La raison pour laquelle le modèle du monde est valorisé est que tout le monde commence à réaliser que générer un langage seul ne suffit pas à soutenir un système proxy véritablement stable et un comportement intelligent dans le monde physique.
Pourquoi cela a-t-il autant à voir avec les agents et les robots ?
Une IA véritablement exploitable ne peut pas seulement réagir en fonction de l’étape immédiate, mais aussi être capable de prédire les conséquences. C’est précisément cette base de capacités que le modèle mondial fournit. Qu’il s’agisse d’un agent dans un environnement virtuel ou d’un robot dans la réalité, tant que la planification, les essais et erreurs et les tâches à long terme sont indissociables, la simulation interne des changements environnementaux est indissociable.
Cela est aussi lié à la raison pour laquelle la génération vidéo
En raison de la génération vidéo de haute qualité, cela force essentiellement le modèle à apprendre « comment le monde évolue ». Lorsque le modèle veut générer en continu une image raisonnablement changeante, il doit traiter de la cohérence temporelle, de la persistance de l’objet et de lois physiques simples, ce qui explique pourquoi de nombreuses associations de recherche de modèles mondiaux et de modèles vidéo se croisent.
Pourquoi cela vaut la peine d’y prêter attention maintenant
- C’est considéré comme une leçon clé de rattrapage pour les agents de passer de « parler » à « faire »
- Elle est fortement liée à la robotique, à la conduite autonome et à l’intelligence physique
- Cela a conduit la recherche en IA à se recentrer sur la causalité, la prédiction et la modélisation environnementale
Par conséquent, le modèle du monde est important non pas parce qu’il semble à la pointe, mais parce que beaucoup de gens ont réalisé que si l’IA ne comprend pas mieux le monde, il lui sera difficile de fonctionner de manière stable dans l’environnement réel pendant longtemps.