Microsoft Maia 200: la scommessa sull’inferenza per tagliare i costi dell’IA

Costruito su processo TSMC a 3nm, Maia 200 punta a superare Amazon e Google nell’efficienza energetica. Obiettivo: abbattere i costi operativi di Copilot e dei servizi Azure.

di Gabriele Arestivo - 26/01/2026 18:30

Se la prima fase dell’intelligenza artificiale generativa è stata una corsa alla potenza di calcolo pura per addestrare modelli sempre più grandi, la seconda fase è puramente economica: farli girare senza mandare in rosso i bilanci. È in questo contesto che si inserisce Maia 200, il nuovo acceleratore proprietario presentato da Microsoft, progettato specificamente per l'inferenza, ovvero l'esecuzione quotidiana dei modelli AI. 

L'obiettivo non è sostituire del tutto l'hardware generalista, ma creare un'infrastruttura verticale capace di gestire il traffico massiccio di dati generato da strumenti come Copilot e dai servizi Azure, ottimizzando il rapporto tra prestazioni e consumi.

Non solo calcoli, ma larghezza di banda

Il collo di bottiglia nell'esecuzione dei Large Language Models (LLM) moderni raramente è la sola velocità di calcolo; più spesso è la capacità di spostare enormi quantità di dati dalla memoria al processore. Per questo, l'architettura di Maia 200 si distacca dalla forza bruta per concentrarsi sul flusso dei dati. Realizzato con il processo produttivo a 3 nanometri di TSMC, ogni chip integra oltre 100 miliardi di transistor e un sottosistema di memoria ridisegnato che offre 216 GB di HBM3e con una larghezza di banda di 7 TB/s.

Questa scelta ingegneristica serve a mantenere i pesi dei modelli il più possibile locali, riducendo la necessità di frammentare il carico di lavoro su troppi dispositivi, un fattore che spesso introduce latenza e inefficienze. A livello di calcolo puro, Microsoft ha puntato su tensor core nativi per formati a bassa precisione (FP8 e FP4), una mossa che riflette la tendenza attuale dell'industria a sacrificare una precisione infinitesimale, spesso superflua in fase di inferenza, in cambio di velocità e risparmio energetico. Secondo i dati dichiarati dalla casa di Redmond, un singolo chip può erogare oltre 10 petaFLOPS in precisione FP4.

La competizione con Amazon e Google

L'annuncio di Maia 200 è anche un messaggio diretto ai concorrenti che da anni sviluppano silicon proprietario. Microsoft afferma che il nuovo chip offre prestazioni tre volte superiori rispetto alla terza generazione di Amazon Trainium e supera la settima generazione di Google TPU nei carichi di lavoro FP8. Il parametro chiave su cui si gioca la partita, però, è l'efficienza economica: l'azienda dichiara un miglioramento del 30% nelle prestazioni per dollaro rispetto ai sistemi esistenti.

Questa efficienza non deriva solo dal silicio, ma da un approccio che Microsoft definisce "end-to-end". Maia 200 non è un componente isolato, ma parte di un sistema che include un livello di trasporto personalizzato basato su Ethernet standard, capace di gestire operazioni collettive su cluster fino a 6.000 acceleratori. L'integrazione arriva fino al sistema di raffreddamento a liquido e ai rack dei datacenter, permettendo di ottimizzare consumi e spazi in un modo che sarebbe complesso realizzando server con componenti di terze parti.

Disponibilità e prospettive

L'implementazione di Maia 200 è già iniziata nei datacenter statunitensi, con l'espansione prevista verso Phoenix e altre aree geografiche. I primi a testare sul campo l'hardware saranno i team interni, in particolare quello dedicato alla Superintelligence, che utilizzerà i chip per la generazione di dati sintetici e l'apprendimento per rinforzo, passaggi critici per affinare i futuri modelli senza dipendere esclusivamente da dati esterni. 

Per gli sviluppatori esterni, l'accesso a questa potenza di calcolo passerà attraverso il nuovo Maia SDK, che supporta framework standard come PyTorch e include un compilatore Triton. La strategia è chiara: offrire un'alternativa che permetta la portabilità del codice, evitando una concentrazione su hardware specifico, ma garantendo al contempo ottimizzazioni profonde per chi sceglie di lavorare sull'infrastruttura Azure.