IA
General Intuition a récolté 320 millions de dollars pour développer un modèle d’IA capable d’apprendre du jeu vidéo à la robotique réelle.

Dans les locaux de General Intuition à New York, Pim de Witte, cofondateur et PDG de 31 ans, m’a rapidement montré un écran où une intelligence artificielle jouait à Fortnite. « Notre agent joue depuis 100 heures d’affilée », a expliqué Kent Rollins, directeur produit, avec enthousiasme.
Avant que je ne me plonge dans la démonstration de l’IA dans ce jeu virtuel, un robot quadrupède s’est approché, ses pas électroniques résonnant dans le bureau. « Le même cerveau qui contrôle l’agent de Fortnite pilote ce robot », a précisé de Witte. Josh Duplantis, analyste de données, a ajouté que le robot était en mode « exploration ».
Doté d’une unique caméra, le robot a tourné autour de moi avant de poursuivre sa route dans le bureau, heurtant parfois des pieds de chaise ou une poubelle, à l’image d’un enfant découvrant son corps dans l’espace. Duplantis a indiqué qu’il avait suffi de huit minutes de données réelles pour ajuster le modèle d’IA du robot, collectées dans la rue, et non dans le bureau où il évoluait.
La capacité du modèle à généraliser ses apprentissages du jeu vidéo à la simulation puis à une forme physique est au cœur du projet de General Intuition. Cette approche a convaincu des investisseurs majeurs.
Jeudi, la société a annoncé une levée de fonds de 320 millions de dollars, valorisant l’entreprise à 2,3 milliards, confirmant ainsi des informations précédentes. Ce nouveau financement porte le total des fonds levés à 454 millions depuis un premier tour de 134 millions en octobre dernier.
General Intuition est issue de Medal, une autre société de de Witte qui permet aux joueurs de partager des extraits de jeux vidéo. Les centaines de millions d’heures de jeu téléchargées ont constitué la base de données initiale pour entraîner le modèle à raisonner dans l’espace et le temps.
Mais le véritable atout ne réside pas dans les vidéos elles-mêmes, mais dans les « labels d’action » intégrés : les enregistrements précis des boutons pressés et du moment de leur activation. Selon de Witte, la plupart des concurrents tentent de déduire les actions uniquement à partir des images, ce qui est insuffisant.
« Nous considérons cela comme la prochaine étape du pré-entraînement », a-t-il déclaré. « Nous avons un modèle unique capable de réagir aux informations de Fortnite à l’écran et d’agir, mais aussi d’interpréter les dynamiques du monde réel d’une manière qu’un grand modèle de langage ne pourrait jamais faire. »
De Witte m’a également fait tester un modèle de monde simulé généré image par image, sans moteur de jeu traditionnel. Comme souvent lors de tests, je me suis heurté à plusieurs murs. Contrairement à d’autres agents qui traversent parfois les obstacles, celui-ci les reconnaît comme des barrières, comprend que les échelles servent à grimper et que les ombres s’allongent avec le déplacement du soleil.
Pour General Intuition, ce modèle de monde est un environnement d’entraînement, surnommé « le gymnase » en interne. L’objectif final est de commercialiser le modèle agent lui-même, la donnée d’action issue du jeu aidant le système à distinguer le « soi » de l’« environnement » et à mieux appréhender la causalité.
Malgré l’impressionnante technologie présentée, General Intuition n’est pas la seule à s’attaquer à ce défi. La mise à l’échelle dans le monde réel reste un enjeu non résolu, la plupart des méthodes demandant des volumes énormes de données réelles, coûteuses et lentes à collecter. La société mise sur le jeu vidéo comme raccourci évolutif.
Les investisseurs partagent cette confiance. Le dernier tour a été mené par Khosla Ventures, avec la participation de General Catalyst, Jeff Bezos, Eric Schmidt, Nico Rosberg, ainsi que des chercheurs de Google DeepMind et du MIT.
La majeure partie des fonds sera consacrée à augmenter la capacité de calcul. General Intuition a conclu un accord avec CoreWeave et prévoit de concentrer ses efforts sur le pré-entraînement de la prochaine version de son modèle. Une partie du financement sera dédiée à rendre son API plus accessible d’ici la fin de l’été.
Vinod Khosla, à la tête du tour de table, a expliqué que la vision de de Witte et la position propriétaire sur les données avaient motivé son engagement. « Pour les grands modèles de langage, l’émergence du raisonnement a été un saut quantique », a-t-il dit. « Pour les modèles de monde, ce saut est l’apparition d’une intuition proche de celle de l’humain. Les données d’action et de réaction humaines dans les jeux sont la clé de cette intuition. »
General Intuition n’est pas la seule à reconnaître la valeur des données d’action humaines de Medal dans la construction de modèles dynamiques et d’agents généraux. Brianna Martin, chef de cabinet de la startup, a indiqué que la société est née en partie après que Medal ait refusé une offre d’acquisition d’un grand laboratoire. D’autres propositions ont suivi.
De Witte et ses cofondateurs Eloi Alonso, Adam Jelley et Vincent Micheli ne souhaitent pas vendre, tout comme leurs investisseurs qui ne cherchent pas de sortie immédiate. La quantité et la qualité des données propriétaires via Medal convainquent Khosla que la startup est un pari générationnel, susceptible de devenir la base des agents et modèles de monde généralisés, en simulation comme dans le réel.
« À ce stade, ce serait une acquisition de données, ce qui est peu intéressant », a déclaré Khosla.
Ce pari s’appuie aussi sur les valeurs de de Witte, qui a travaillé sept ans dans l’humanitaire, notamment avec Médecins Sans Frontières. Il a clairement exclu toute utilisation militaire de la technologie : « Nous ne voulons pas être une partie escalatoire du système. Si je disais que nous faisons de l’autonomie létale, que pensez-vous qu’il se passerait dans d’autres pays ? »
Cette limite intervient alors que la Silicon Valley s’intéresse de plus en plus aux applications militaires. De Witte se dit favorable à l’usage de ses modèles pour des missions de recherche et sauvetage, mais estime que l’obsession récente pour la défense « infecte l’écosystème ».
Originaire des Pays-Bas, entouré d’une équipe majoritairement européenne, de Witte a recruté Martin notamment pour sa décision publique de quitter Palantir à cause de ses collaborations avec l’agence américaine de contrôle des frontières.
« Je ne comprends pas pourquoi la Silicon Valley fait ce qu’elle fait », a-t-il confié. « C’est une des raisons pour lesquelles je n’y suis pas. »
Les principes éthiques de de Witte ne se limitent pas à ce que les modèles ne feront pas. En tant que joueur ayant gagné 1,5 million de dollars en créant un serveur privé de RuneScape durant son adolescence, il réfléchit aussi à l’avenir des personnes potentiellement laissées pour compte par les avancées de l’IA.
General Intuition a récemment lancé Nerve, une plateforme d’emploi permettant aux joueurs de monétiser leurs compétences. Les inscrits commencent par l’étiquetage de données, puis peuvent évoluer vers la téléopération de robots et d’autres tâches. La base d’utilisateurs de Medal correspond à la génération la plus exposée au risque de remplacement par l’IA, et de Witte souhaite leur offrir une place dans cette transition.
Le dirigeant ambitionne que General Intuition devienne un facilitateur d’écosystème, à l’image d’Anthropic ou OpenAI, fournissant un modèle permettant à d’autres de construire dessus. La startup compte déjà quelques clients dans le jeu vidéo, la simulation et la robotique.
« Nous ne construirons pas une entreprise de voitures autonomes », a-t-il affirmé. « Nous voulons rendre dix fois plus facile la création d’une telle entreprise par d’autres. »
Une fois son API plus largement distribuée, la société espère tester son modèle sur divers cas d’usage, comme la simulation d’un robot dans un jumeau numérique d’usine, un bot humanoïde dans un studio de jeu, ou un quadrupède évoluant en environnement dangereux.
Si le quadrupède est la première incarnation physique testée dans le monde réel, General Intuition a aussi expérimenté des drones et d’autres appareils, notamment dans des jeux de conduite.
« Ça fonctionne avec tout ce que vous pouvez contrôler via une manette ou un clavier-souris », a résumé de Witte.
La constitution d’un cercle vertueux de données figure parmi les objectifs.
« Nous sélectionnerons des clients capables de diversifier les incarnations que ce modèle fondamental généralisé soutient », a expliqué de Witte. « Nous privilégierons ceux qui peuvent fournir des données réelles intéressantes et utiles pour faire avancer la recherche, et qui disposent d’équipes internes agiles avec lesquelles nous pourrons collaborer étroitement. »
Khosla a insisté sur l’importance des données propriétaires pour le succès actuel et futur de General Intuition. Il a rappelé que, malgré des démonstrations prometteuses, la question de la transférabilité à grande échelle du virtuel au réel reste ouverte et non résolue.
Monde
Culture & société
Monde
Lifestyle