La società cinese di intelligenza artificiale DeepSeek ha dichiarato di aver speso appena 294.000 dollari per addestrare il suo modello R1, una cifra sorprendentemente bassa rispetto a quella riportata dai colossi statunitensi del settore. La notizia è stata resa pubblica mercoledì in un articolo sulla rivista scientifica Nature e promette di riaccendere il dibattito sul ruolo di Pechino nella corsa globale all'IA.


Costi ridotti e impatto sui mercati

Quando a gennaio DeepSeek aveva presentato i suoi sistemi a basso costo, la notizia aveva già fatto tremare i mercati: gli investitori avevano scaricato titoli tecnologici temendo che i nuovi modelli cinesi potessero minacciare la leadership di aziende come Nvidia. Da allora, la società con sede a Hangzhou e il suo fondatore Liang Wenfeng erano rimasti quasi in silenzio, salvo per annunciare alcuni aggiornamenti.

Nell'articolo su Nature, Liang e i coautori precisano che l'addestramento del modello R1, focalizzato sul ragionamento, è avvenuto su un cluster di 512 GPU Nvidia H800, con un costo stimato di 294.000 dollari. Una versione preliminare della ricerca, pubblicata a gennaio, non riportava questi dati.


Il confronto con gli Stati Uniti

Per avere un termine di paragone: Sam Altman, CEO di OpenAI, aveva dichiarato nel 2023 che il training dei modelli fondamentali era costato "ben oltre i 100 milioni di dollari". OpenAI, però, non ha mai fornito cifre precise per i propri progetti.

I costi di addestramento dei grandi modelli linguistici dipendono dall'uso di enormi cluster di chip per settimane o mesi, al fine di elaborare quantità gigantesche di testi e codice.


Dubbi e verifiche

Alcune affermazioni di DeepSeek sui costi e sulle tecnologie impiegate sono state messe in discussione da aziende e funzionari statunitensi. Gli H800, infatti, sono versioni di GPU Nvidia progettate appositamente per il mercato cinese, dopo che nel 2022 gli Stati Uniti avevano vietato l'export delle più potenti H100 e A100.

Funzionari USA avevano però dichiarato a Reuters che DeepSeek dispone di "ampie quantità" di chip H100, nonostante le restrizioni. Nvidia, invece, ha ribadito che l'azienda cinese ha usato soltanto H800 legalmente acquistati.


Il ruolo delle A100

In un documento supplementare allegato all'articolo di Nature, DeepSeek ha ammesso per la prima volta di possedere anche GPU A100, utilizzate però solo nella fase preparatoria con modelli più piccoli. Il training vero e proprio di R1 è stato completato in 80 ore con il cluster di 512 H800.

Secondo precedenti inchieste, la capacità di DeepSeek di attirare alcuni dei migliori talenti in Cina è legata proprio al fatto di essere una delle poche aziende locali ad aver avuto accesso a un supercomputer basato su A100.

 

L'articolo è stato redatto utilizzando come fonte l'agenzia Reuters