VAST et les 200 millions de dollars misés sur le 3D génératif chinois
Simon Song avait 29 ans lorsqu'il a bouclé une levée de 200 millions de dollars et franchi le seuil du milliard de dollars en valorisation. VAST, sa startup spécialisée dans les modèles d'intelligence artificielle pour le contenu tridimensionnel, vient de rejoindre le cercle des licornes. L'annonce intervient à peine trois mois après que la société a clôturé sa Série A à hauteur de 50 millions de dollars, menée par Alibaba et Hengxu Capital. Le rythme de cette séquence — 50 millions de dollars en mars, 200 millions de dollars en juin — n'est pas seulement un signal de traction opérationnelle. C'est un signal sur la nature du pari que font les investisseurs en ce moment et sur la raison pour laquelle le 3D génératif occupe cette place.
Song est apparu cette année dans le classement Forbes 30 Under 30 Asia. Avant de fonder VAST en 2023, il avait travaillé comme assistant du cofondateur de SenseTime et avait été cofondateur de MiniMax, une autre entreprise de modèles d'IA. Sa plateforme Tripo AI convertit du texte et des images en objets tridimensionnels détaillés en quelques secondes. Les clients incluent NetEase, le géant chinois du jeu vidéo, et Sony. La base d'utilisateurs atteint 20 millions de personnes dans le monde entier, avec une présence particulièrement marquée aux États-Unis, en Europe et au Japon. Les abonnements vont de 20 à 140 dollars par mois. Les projets d'entreprise sont facturés séparément. Avec cette annonce de financement est venu également le lancement du Projet Eden : un programme visant à construire des modèles de monde, c'est-à-dire des systèmes d'IA capables de générer des environnements virtuels que plusieurs utilisateurs peuvent explorer et dans lesquels ils peuvent interagir.
Voilà l'essentiel du dossier. Ce qui mérite attention n'est pas le chiffre en lui-même, mais la structure de valeur que ce chiffre révèle — et les tensions qui ne se voient pas encore de l'extérieur.
Le 3D comme infrastructure, et non comme produit
La génération d'images par IA est arrivée en premier parce que le problème était moins coûteux à résoudre : des données abondantes, un résultat vérifiable instantanément, une demande massive de la part des créateurs individuels. Le 3D a pris plus de temps parce que les exigences computationnelles sont supérieures, les données d'entraînement plus rares et la chaîne d'utilisation plus complexe. Transformer un prompt en texte est une chose. Le transformer en un objet tridimensionnel navigable, avec des proportions physiques cohérentes et une qualité suffisante pour la production en temps réel, relève d'un tout autre niveau de difficulté.
Cette difficulté est précisément ce qui rend le segment attractif pour le capital de croissance. Lorsqu'un problème technique est véritablement difficile et que la demande est clairement formée, celui qui le résout en premier à grande échelle dispose d'un avantage qui ne se réplique pas en quelques semaines. La création d'actifs 3D représente aujourd'hui l'un des goulots d'étranglement les plus coûteux dans la production de jeux vidéo, de simulations industrielles, d'expériences de réalité augmentée et de jumeaux numériques pour la fabrication. Un studio de développement de jeux vidéo de taille moyenne peut dépenser entre 30 % et 50 % de son budget de production uniquement en art et en modélisation 3D. Comprimer ce coût grâce à l'IA n'est pas une amélioration incrémentale : c'est une reconversion de la structure des dépenses de l'entreprise.
Ce que VAST positionne avec Tripo AI est, dans sa logique la plus profonde, une couche d'infrastructure pour la création de contenu tridimensionnel. Non pas un produit de niche réservé aux designers avancés, mais une plateforme susceptible de s'intégrer dans les flux de production des studios de jeux vidéo, des cabinets de design industriel, des plateformes de commerce électronique et des simulateurs de formation. Lorsqu'une startup compte 20 millions d'utilisateurs et des clients comme NetEase et Sony dans les deux ou trois premières années d'existence, le signal est qu'elle a trouvé une demande à plusieurs niveaux simultanément : le créateur individuel qui paie 20 dollars par mois et la corporation qui paie par projet. Cette double face du modèle de revenus est importante car elle réduit la dépendance à un seul canal et distribue le risque de désabonnement.
Le Projet Eden élève la mise dans une direction spécifique : les modèles de monde. Fei-Fei Li a levé 1 milliard de dollars pour World Labs dans ce même segment en début d'année. Le mouvement de VAST dans cette même direction, avec une échelle de capital moindre mais avec une plateforme opérationnelle déjà déployée, suggère que la société parie que l'avantage concurrentiel futur ne résidera pas seulement dans la génération d'objets 3D, mais dans la génération d'environnements complets et navigables, ce qui change radicalement l'échelle du marché cible.
Où se trouve le capital et quels sont les intérêts qui le meuvent
Les investisseurs de ce tour de table comprennent INCE Capital, Genesis Capital et Primavera Capital Group. Ce ne sont pas des fonds généralistes. Ce sont des acteurs dotés d'une exposition profonde à l'écosystème technologique chinois et capables d'accompagner des tours de croissance vers l'échelle. La participation préalable d'Alibaba dans la Série A n'est pas décorative : Alibaba a un intérêt direct à voir exister des outils de génération de contenu 3D pouvant s'intégrer à ses plateformes de commerce, à ses services cloud et à ses projets de divertissement.
Cela soulève une question de structure qui vaut la peine d'être examinée attentivement. Lorsqu'un investisseur stratégique comme Alibaba entre dans un tour précoce et que la société clôture ensuite un tour de suivi quatre fois plus important, deux lectures sont possibles. La première est que la traction a été si manifeste que les nouveaux investisseurs financiers sont entrés avec une conviction indépendante. La seconde est que le soutien d'Alibaba a fonctionné comme un signal de légitimité qui a facilité la clôture avec d'autres fonds. Ces deux lectures peuvent être simultanément vraies, et la distinction importe parce qu'elle définit dans quelle mesure la trajectoire de VAST est autonome par rapport à ses investisseurs stratégiques.
Le détail concernant la valorisation est tout aussi révélateur. Selon deux personnes ayant connaissance de l'opération, la valorisation dépasse le milliard de dollars ; l'une d'elles la situe près de 1,5 milliard de dollars. Le fait que VAST ne confirme pas publiquement sa valorisation est une pratique habituelle chez les startups en phase de croissance, mais reflète également que la société préfère conserver une flexibilité dans la manière dont elle se présente au marché. Avec 250 millions de dollars cumulés en deux tours au cours de la même année, le capital disponible à déployer est substantiel. La société a annoncé qu'elle l'utiliserait pour le recrutement, la recherche et le développement.
Cette destination des fonds a une logique claire : en IA générative, la marge d'avantage se construit sur la qualité du modèle et sur la capacité à l'itérer plus rapidement que les concurrents. Recruter des équipes de recherche de haut niveau en Chine est moins coûteux qu'en Silicon Valley, ce qui transforme chaque dollar en une plus grande densité de talents. Mais cet avantage a une limite connue : la disponibilité des puces d'entraînement avancées, qui en Chine opère sous des restrictions à l'exportation imposées par le gouvernement américain. La façon dont VAST résout ce goulot d'étranglement computationnel sans accès illimité aux GPU les plus puissants du marché est une variable que les investisseurs connaissent et que le marché extérieur ne peut pas lire clairement.
La fragilité que le succès dissimule encore
Le modèle de revenus de VAST combine abonnements individuels et facturation d'entreprise par projet. C'est structurellement sain : les revenus récurrents de 20 millions d'utilisateurs génèrent une base prévisible, tandis que les contrats d'entreprise avec des studios comme NetEase et Sony apportent du volume par opération. Cependant, il existe une tension de fond qui mérite attention avant que le récit de la licorne ne la recouvre.
Les plateformes d'outils pour créateurs et pour entreprises obéissent à des logiques différentes. L'utilisateur individuel paie pour une utilité immédiate et change d'outil lorsqu'apparaît quelque chose de meilleur ou de moins cher. L'entreprise paie pour l'intégration, le support et la garantie de continuité, mais elle négocie aussi les prix et peut développer des capacités internes si l'outil devient suffisamment mature. Ce qui semble aujourd'hui un avantage — que la plateforme serve les deux segments — peut devenir une tension de produit si les besoins divergent.
Le segment des entreprises exige des modèles plus contrôlables, auditables, intégrables avec des pipelines existants et assortis de SLA bien définis. Le segment des créateurs individuels exige rapidité, simplicité et prix abordable. Maintenir les deux au sein d'une seule plateforme nécessite une architecture produit qui ne s'adapte pas toujours de façon propre à la montée en charge. De nombreuses plateformes logicielles ont échoué précisément à ce stade : en grandissant, la complexité inhérente à servir deux segments aux logiques distinctes consomme des ressources d'ingénierie et fragmente la proposition de valeur jusqu'à la rendre diffuse.
Il existe par ailleurs une variable concurrentielle que le récit du tour de table ne mentionne pas explicitement mais qui définit l'horizon du secteur. Les grands moteurs de jeux vidéo — Unity et Unreal Engine en particulier — investissent activement dans des capacités de génération procédurale et assistée par IA pour les actifs 3D. Si ces plateformes, qui disposent déjà d'une intégration native dans les flux de production des studios, développent des outils de génération 3D comparables à Tripo AI, la position de VAST en tant que couche indépendante se complique. Non pas parce que VAST disparaîtrait, mais parce que l'espace de négociation sur la captation de valeur dans la chaîne se redistribue.
Le Projet Eden est la réponse implicite à ce risque. En se déplaçant vers des modèles de monde complets — des environnements navigables dotés d'une logique physique, accueillant plusieurs utilisateurs et avec une génération dynamique — VAST vise un niveau de complexité que les moteurs de jeux ne vont pas résoudre à court terme en tant que fonction native. C'est un pari sur la construction du problème le plus difficile avant que la concurrence n'arrive à résoudre le plus facile.
Ce que 200 millions de dollars n'achètent pas seuls
La répartition de la valeur dans ce modèle présente, pour l'instant, une géométrie raisonnable. Les utilisateurs individuels reçoivent une utilité réelle à des prix accessibles. Les clients d'entreprise bénéficient d'une réduction des coûts de production sur un véritable goulot d'étranglement. Les investisseurs obtiennent une exposition à un segment d'IA à demande structurelle et à traction démontrée. VAST capture des revenus sur deux niveaux et accumule des données d'utilisation qui alimentent en retour l'amélioration du modèle. La logique distributive, telle qu'elle se présente, ne montre pas de signes évidents d'extraction dans une seule direction.
Mais les 200 millions de dollars n'achètent pas l'autonomie sur l'environnement concurrentiel, ni un accès garanti à l'infrastructure computationnelle dans un contexte de restrictions géopolitiques, ni la capacité de maintenir simultanément la qualité pour le créateur individuel et la robustesse pour le client d'entreprise. Ils n'achètent pas non plus du temps indéfini : dans les modèles d'abonnement pour les outils d'IA, le taux d'abandon répond directement à la vitesse à laquelle des alternatives apparaissent. Le capital achète uniquement la possibilité de résoudre ces problèmes avant qu'ils ne deviennent coûteux. VAST dispose de cette possibilité. Si elle l'exécute bien, la licorne d'aujourd'hui peut devenir l'infrastructure du contenu 3D de la prochaine décennie. Sinon, les 200 millions de dollars seront le plafond, et non le tremplin.












