Depuis quelques années, l’intelligence artificielle est dominée par les LLM, les “Large Language Models”, comme ChatGPT ou Gemini. Ces modèles sont entraînés sur des quantités gigantesques de textes afin d’apprendre à prédire le mot suivant dans une phrase. Autrement dit, ils sont extrêmement performants pour manipuler le langage. Mais pour certains chercheurs, dont Yann LeCun, cette approche possède une limite fondamentale : ces systèmes apprennent surtout un modèle du langage, pas un modèle du monde réel.
Un LLM peut donc produire des phrases plausibles, répondre à des questions ou écrire un essai. Mais il ne comprend pas réellement la réalité physique qui se cache derrière ces mots. Par exemple, il peut expliquer comment préparer un café, mais il ne sait pas vraiment comment manipuler les objets dans une cuisine ni prévoir ce qui se passerait si un robot exécutait ces actions.
C’est précisément là qu’intervient l’idée des world models. Un world model est un système d’intelligence artificielle qui apprend à construire une représentation interne du monde : les objets, l’espace, le temps et les relations physiques entre les choses. Ces modèles sont entraînés non seulement sur du texte, mais aussi sur des images, des vidéos et des interactions avec l’environnement. Leur objectif est de comprendre comment le monde fonctionne, par exemple la gravité, les collisions ou le déplacement d’objets.
L’une des capacités clés d’un world model est la simulation mentale. Le système peut imaginer différents futurs possibles : “si je fais cette action, que va-t-il se passer ensuite ?”. Cette capacité de prédiction permet alors la planification et la prise de décision, ce qui est essentiel pour des robots, des voitures autonomes ou des agents intelligents capables d’agir dans le monde réel.
Yann LeCun estime que l’intelligence humaine fonctionne justement de cette manière. Notre cerveau possède une sorte de modèle interne du monde qui nous permet d’anticiper les conséquences de nos actions. Pour lui, une véritable intelligence artificielle devra donc posséder plusieurs capacités absentes des LLM actuels : une mémoire persistante, du raisonnement, de la planification et une compréhension du monde physique.
C’est pour explorer cette voie qu’il a récemment lancé une nouvelle startup dédiée à ces technologies. L’objectif est de créer des systèmes capables d’interagir avec la réalité — par exemple dans la robotique, l’industrie ou la médecine — plutôt que de simplement générer du texte.
En résumé, les LLM sont des modèles du langage, tandis que les world models cherchent à être des modèles du monde. Et pour Yann LeCun, c’est peut-être cette différence qui déterminera la prochaine grande révolution de l’intelligence artificielle.
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.