Qu’est-ce que les world models, prochaine frontière de l’intelligence artificielle ?

- Quand l’IA perd le fil du réel
- Du 3D au 4D : donner du volume… et du temps
- Réalité augmentée, robotique, véhicules autonomes : des usages concrets
- Au-delà du 4D : le « world model » comme modèle interne du réel
- Une étape stratégique vers des IA plus responsables ?
Et si la prochaine rupture de l’IA ne venait pas d’un modèle plus grand, mais d’un modèle plus cohérent du réel ? Derrière les prouesses spectaculaires des générateurs de texte et de vidéo, une faiblesse persiste : l’absence d’une représentation stable de l’espace et du temps. Une nouvelle génération de systèmes, dits world models, ambitionne de doter les machines d’une mémoire spatio-temporelle continue. Avec, à la clé, des impacts qui dépassent largement les chatbots.
Quand l’IA perd le fil du réel
Tout utilisateur d’outil génératif l’a déjà constaté : un détail change d’une image à l’autre, un objet disparaît, un décor se transforme sans raison. Dans une vidéo générée par IA, un chien passe derrière un canapé… et réapparaît sans collier. La lumière varie, les proportions se déforment. Ces incohérences ne sont pas des bugs isolés. Elles tiennent à l’architecture même des modèles actuels. Les grands modèles de langage, comme ceux qui alimentent ChatGPT, fonctionnent sur un principe prédictif : ils estiment, à partir de gigantesques corpus d’entraînement, la suite la plus probable d’un texte. Les générateurs vidéo procèdent de façon analogue, en prédisant image après image, ce qui semble visuellement plausible.
Mais présager n’est pas comprendre. Ces systèmes n’entretiennent pas une carte interne explicite du monde qu’ils mettraient à jour au fil des événements. Ils produisent des séquences cohérentes localement, sans toujours garantir une continuité globale. Résultat : des scènes crédibles à court terme, fragiles à long terme.
Du 3D au 4D : donner du volume… et du temps
Pour saisir ce qui change, il faut introduire la notion de modèle en quatre dimensions : les trois dimensions de l’espace, auxquelles s’ajoute le temps. On peut prendre l’analogie du cinéma en relief. Lorsque Titanic a été converti en 3D stéréoscopique, chaque image donnait une impression de profondeur. Pourtant, le spectateur ne pouvait pas se déplacer autour des personnages : la perspective restait figée.
Les recherches récentes en vision par ordinateur ont franchi une étape supplémentaire. À partir de multiples images d’une scène, des algorithmes comme les NeRF (neural radiance fields) permettent de générer de nouveaux points de vue photoréalistes. Autrement dit, l’IA peut reconstituer une représentation volumétrique de l’environnement.
L’étape suivante consiste à intégrer la dimension temporelle. Chaque instant d’une vidéo n’est plus seulement une image, mais une tranche d’un espace dynamique. Des travaux récents décrivent des systèmes capables de transformer des vidéos captées « dans la nature » en modèles 4D exploitables pour générer de nouvelles séquences sous d’autres angles.
L’enjeu n’est pas seulement esthétique. En intégrant une carte spatio-temporelle continuellement mise à jour, le système limite les incohérences. Le canapé reste un canapé. Le collier du chien ne s’évapore plus. L’IA ne se contente plus d’enchaîner des images plausibles : elle s’appuie sur une représentation persistante de la scène.
Réalité augmentée, robotique, véhicules autonomes : des usages concrets
Les implications dépassent largement la génération vidéo. Dans la réalité augmentée, par exemple, un modèle 4D constitue une mémoire évolutive de l’environnement de l’utilisateur. Les objets virtuels peuvent rester ancrés dans l’espace, disparaître correctement derrière un mur réel, refléter une lumière cohérente. Des prototypes comme les lunettes Orion de Meta illustrent cette ambition : sans modélisation tridimensionnelle de l’environnement, les effets d’occlusion (lorsqu’un objet numérique passe derrière un objet réel) restent artificiels.
En robotique, la capacité à transformer rapidement des flux vidéo en représentations 4D offre un terrain d’entraînement riche. Un robot équipé d’un modèle interne de son environnement peut mieux anticiper les trajectoires, prédire les interactions, planifier des actions complexes.
Or, les limites actuelles sont documentées. Des travaux récents ont montré que certains modèles vision-langage, pourtant performants pour décrire des images, obtiennent des résultats proches du hasard lorsqu’il s’agit d’analyser des trajectoires de mouvement. Autrement dit : comprendre une scène statique n’implique pas comprendre sa dynamique.
Au-delà du 4D : le « world model » comme modèle interne du réel
Le terme world model recouvre toutefois une ambition plus vaste que la simple reconstruction 4D. Dans le débat sur l’intelligence artificielle générale (AGI), il renvoie à une représentation interne des lois du monde : causalité, permanence des objets, capacité à planifier. Les grands modèles de langage possèdent, d’une certaine manière, une connaissance implicite du réel, acquise à travers les données d’entraînement. Mais cette connaissance est figée. Une fois déployés, ils n’apprennent plus de l’expérience en temps réel.
Certains chercheurs estiment que l’AGI nécessitera des systèmes capables d’intégrer un flux continu d’informations, d’actualiser leur compréhension du monde et d’agir en conséquence. Dans cette perspective, le modèle de langage deviendrait une interface (un médiateur du langage et du « bon sens ») adossé à une mémoire spatio-temporelle plus explicite. D’autres chercheurs voient l’AGI comme inatteignable, voire relevant d’un mirage.
Plusieurs figures majeures de l’IA ont récemment pris ce virage des world models. En 2024, Fei-Fei Li a fondé World Labs, qui développe des outils pour générer des environnements 3D à partir de textes, d’images ou de vidéos. De son côté, Yann LeCun a annoncé quitter Meta afin de lancer AMI (Advanced Machine Intelligence), une start-up dédiée à des systèmes capables de comprendre le monde physique, de raisonner et de planifier des séquences d’actions complexes.
Ces initiatives prolongent une intuition formulée depuis plusieurs années : si les humains peuvent agir efficacement dans des situations inédites, c’est parce qu’ils disposent de modèles internes du fonctionnement du monde. Des agents expérimentaux comme DreamerV3 ont montré qu’un système capable « d’imaginer » des scénarios futurs grâce à un modèle interne améliore ses performances.
Une étape stratégique vers des IA plus responsables ?
L’émergence des world models marque peut-être un changement de paradigme. Après l’ère de la prédiction statistique massive, celle de la cohérence structurelle pourrait s’ouvrir.
À court terme, ces avancées promettent des environnements immersifs plus crédibles, des robots plus sûrs, des simulations plus fiables pour tester des systèmes avant leur déploiement réel. À plus long terme, elles posent une question plus ambitieuse : une machine peut-elle véritablement comprendre le monde sans en maintenir une représentation dynamique et persistante ?
La révolution annoncée ne tiendrait alors pas à la taille des modèles, mais à leur capacité à habiter le temps et l’espace. Autrement dit, à cesser d’improviser image après image pour commencer à construire, pas à pas, une continuité du réel.
En savoir plus sur Jean-Luc Raymond 🚀
Abonnez-vous pour recevoir les derniers articles par e-mail.
Commentaires fermés