Alibaba investe 290 milioni di dollari perché il futuro dell'IA non è nel testo
All'inizio di aprile 2026, Alibaba Cloud ha guidato un round di finanziamento di 2 miliardi di yuan —circa 290 milioni di dollari— in ShengShu Technology, una startup cinese di tre anni conosciuta principalmente per Vidu, il suo generatore di video con intelligenza artificiale. L'operazione ha coinvolto anche TAL Education e Baidu Ventures. Ciò che colpisce non è solo l'importo, pur essendo sostanzioso: ShengShu aveva già raccolto circa 88 milioni di dollari solo due mesi prima. Ciò che colpisce è per cosa servirà quel denaro.
La destinazione dichiarata non è migliorare Vidu o scalare il suo business di video. È costruire un modello di mondo generale, addestrato con dati multimodali che includono visione, audio e tatto, con applicazioni dirette nella robotica fisica e nella guida autonoma. In termini operativi, ShengShu sta cercando di far sì che un'intelligenza artificiale impari a interagire con la fisica del mondo, non solo a elaborare sequenze di testo.
Questa distinzione è più importante di quanto possa apparire nei titoli.
Perché i modelli di linguaggio non possono arrivare lì da soli
I grandi modelli di linguaggio sono estremamente competenti all'interno del loro dominio: ragionamento simbolico, generazione di testo, sintesi dell'informazione. Tuttavia, hanno una limitazione strutturale che nessuna versione aggiuntiva di parametri può risolvere da sola: non possono generalizzare a ambienti fisici a ciclo chiuso. Un robot che ha bisogno di calibrare la forza esatta per sostenere un oggetto fragile non può fare affidamento su probabilità statistiche su sequenze di token. Deve aver "visto" migliaia di iterazioni di quell'oggetto, in diverse condizioni di luce, texture e temperatura. Ha bisogno, in termini tecnici, di un modello del mondo.
Questo non è speculatione: è il collo di bottiglia che attualmente limita il dispiegamento massiccio di robotica fisica autonoma. Le aziende che cercano di scalare robot nella produzione, logistica o assistenza medica si troveranno ad affrontare il fatto che i loro modelli di linguaggio, per quanto raffinati siano, falliscono nel trasferire il comportamento dalle simulazioni digitali agli ambienti reali. Il fenomeno ha un nome nell'industria: il problema del sim-to-real gap, il divario tra ciò che il modello apprende in un ambiente simulato e ciò che può eseguire nel mondo fisico con variabilità reale.
ShengShu sta costruendo esattamente l'infrastruttura per chiudere quel divario. E Alibaba sta pagando per questo.
Vista dalle 6D dello sviluppo tecnologico, questa mossa segna la transizione da una tecnologia che è stata per anni in fase di digitalizzazione e delusione —dove le promesse superano i risultati in applicazioni fisiche— verso una fase di disruzione concreta nei settori industriali. La disruzione non arriverà da un testo più raffinato; arriverà da una simulazione più precisa.
L'aritmetica dietro la scommessa
L'ammontare totale del finanziamento di ShengShu in appena due mesi —quasi 380 milioni di dollari in totale— non è un incidente. Rivela l'economia di costruire un modello di mondo su larga scala.
Tra le categorie di spesa più intensive in questo tipo di progetto ci sono tre: la raccolta massiva di dati multimodali (video, sensori, audio, tattili), lo sviluppo di piattaforme di simulazione per generare dati sintetici di alta fedeltà e l'infrastruttura di calcolo per addestrare modelli che gestiscano quella eterogeneità di segnali. Nessuna di queste tre categorie è economica, e nessuna scala linearmente.
Per Alibaba Cloud, il calcolo strategico è diverso da quello di ShengShu. La cloud ha bisogno di verticali ad alto valore computazionale per giustificare la propria infrastruttura. I modelli di mondo generale —per la loro domanda di addestramento continuo, simulazione e inferenza in tempo reale— sono esattamente il tipo di carico di lavoro che trasforma la capacità di cloud inattiva in entrate ricorrenti. La partecipazione di Alibaba in ShengShu non è solo una scommessa finanziaria; è un modo per generare domanda per la sua piattaforma.
Questo schema è coerente con altri recenti movimenti di Alibaba: il lancio di HappyHorse 1.0 —il suo modello di generazione video che ha guidato le classifiche globali di Artificial Analysis nell'aprile 2026— e RynnBrain, il suo strumento per la mappatura di oggetti nella robotica. Alibaba non sta investendo in una sola scommessa; sta costruendo strati di una stessa architettura aziendale in cui la cloud, i modelli propri e le startup partecipate si rinforzano a vicenda.
Le azioni di Alibaba a Hong Kong sono aumentate del 2,12% il 10 aprile 2026 dopo la conferma di HappyHorse, su una giornata tecnologica che era già aumentata del 6,75%. Il mercato sta leggendo lo stesso schema.
Quando il video smette di essere intrattenimento e diventa dato industriale
C'è un cambiamento concettuale che vale la pena notare perché ha implicazioni per qualsiasi azienda che stia pensando all'intelligenza artificiale come strumento di produttività: il video generativo ha smesso di essere un prodotto di consumo per diventare una fonte di dati di addestramento per sistemi fisici.
Vidu, il generatore di video di ShengShu, non è la destinazione dell'azienda. È il meccanismo di accumulazione di dati visivi che alimenterà il modello del mondo. Ogni video generato, ogni interazione utente, ogni variazione di scena è, nella logica di ShengShu, un punto di dati su come si comporta il mondo visivamente. Quel repository, scalato a decine di milioni di interazioni, diventa il substrato di addestramento per un sistema che in futuro deve comprendere la causalità fisica, non solo la correlazione statistica.
Questa logica ha un diretto parallelo storico: Google non ha costruito Street View per vendere fotografie di strade. Lo ha costruito per addestrare sistemi di riconoscimento visivo che oggi alimentano da Maps ai sensori dei suoi progetti di guida autonoma. ShengShu sta facendo qualcosa di strutturalmente simile: utilizzare un prodotto di consumo di massa come meccanismo di accumulazione di dati per un'applicazione industriale di valore molto superiore.
Per il leadership esecutivo di qualsiasi azienda che opera nella produzione, logistica, salute o mobilità, il messaggio è diretto: le aziende che oggi controllano repository di dati multimodali di qualità —video, sensori, audio in contesti fisici reali— hanno un vantaggio che non si compra facilmente nel mercato spot dei dati. L'accumulo conta ora, prima che i modelli di mondo maturino.
Il cambiamento è già iniziato e il testo è solo il primo gradino
Alibaba, ShengShu, ByteDance e un numero crescente di attori cinesi e globali stanno competendo in una corsa il cui premio non è il miglior chatbot. Il premio è controllare il livello di intelligenza che collega il mondo digitale con quello fisico: robotica industriale, veicoli autonomi, sistemi di produzione adattiva.
I modelli di linguaggio hanno democratizzato l'accesso al ragionamento simbolico. Questo è stato il primo gradino. I modelli di mondo, se raggiungono la maturità tecnica che questo investimento presume possibile, democratizzeranno l'accesso al ragionamento fisico: la capacità di sistemi autonomi di agire con criterio in ambienti variabili, senza intervento umano costante. Questa transizione definisce quali aziende e industrie mantengono il controllo sui propri processi produttivi e quali cedono quel controllo a chi possiede l'infrastruttura di intelligenza.
L'investimento di Alibaba in ShengShu segna l'inizio visibile della fase di disruzione nella robotica e nell'industria fisica. Non lo fa attraverso un prodotto finito, ma attraverso il dato più scarso del settore: la capacità di simulare il mondo con sufficiente fedeltà per addestrare sistemi che poi opereranno in esso. Questa capacità, una volta consolidata, non demonetizza solo un settore; ridefinisce chi ha il diritto di fare pagare per l'intelligenza che muove le cose.









