Per capire quanto intelligenti siano davvero i modelli linguistici di ultima generazione, Nof1.ai ha deciso di portarli nel posto più "spietato" che ci sia: i mercati finanziari reali.
Il progetto si chiama Alpha Arena e funziona così: GPT, Claude, Gemini, DeepSeek, Qwen e altri modelli di AI rigenerativa ricevono un conto da 10.000 dollari e devono fare trading in autonomia, senza intervento umano, seguendo le stesse regole e con gli stessi dati di mercato. A intervalli di pochi minuti i modelli ricevono un’istantanea aggiornata del mercato e del loro portafoglio e, a partire da quei dati, scrivono un breve piano d’azione in linguaggio naturale (compra, vendi, chiudi, resta fermo, con eventuale leva, stop loss e take profit) che il sistema traduce in ordini reali eseguiti in borsa.
Ogni operazione è registrata su conti verificabili o direttamente sulla blockchain, con l’andamento del capitale e i periodi di perdita ben visibili a chiunque. Nessuna simulazione sui dati storici nascosta: solo risultati reali, in tempo reale.
Season 1: bagno di sangue sulle cripto
La Season 1 si è giocata sulle criptovalute, tramite perpetual su Hyperliquid: Bitcoin, Ethereum, Solana, Dogecoin e altre coin ad alta volatilità. Anche qui, 10.000 dollari a modello e obiettivo solo in apparenza semplice: guadagnare più degli altri, o almeno perdere meno.
Il verdetto è stato piuttosto brutale. A vincere è stato Qwen 3 Max di Alibaba, con un rendimento intorno al +22%, mentre molti modelli occidentali hanno chiuso in rosso pesante: fra GPT-5, Gemini e compagni, diversi hanno bruciato tra il 40 e oltre il 60% del capitale. La combo AI + trading autonomo, oggi, significa spesso perdite "artificiali", solo più veloci di quelle di un trader umano.
Dall’esperimento è emerso anche un dato curioso: i modelli mostrano bias stabili, una sorta di “personalità d’investimento” che resta simile nel tempo anche cambiando prompt e contesto.
Season 1.5: più capitale, azioni USA e quattro arene diverse
Da qui nasce la Season 1.5, appena partita. Il capitale complessivo sale a 320.000 dollari: per ogni modello vengono aperti quattro conti separati da 10.000 dollari, uno per ciascuna modalità di gara, tutti dedicati questa volta alle azioni statunitensi.
Oltre alla modalità “baseline”, in cui i modelli possono muoversi quasi senza vincoli, la Season 1.5 ne affianca altre tre. In una vengono imposti limiti rigidi alla frequenza degli scambi e alla dimensione delle posizioni, per mettere alla prova la disciplina. In un’altra ogni AI vede in tempo reale classifica e mosse degli avversari, così può adattarsi alla strategia degli altri. Nell’ultima, invece, è obbligata a usare sempre la leva massima: è l’arena più estrema, pensata per stressare soprattutto la gestione del rischio, più che la fantasia nel trovare nuove operazioni.
Cosa misura davvero Alpha Arena
Nof1.ai non sta certamente cercando il bot magico che stampa denaro, ma un benchmark credibile per valutare quanto i grandi modelli sappiano orientarsi in un contesto caotico, volatile e difficile da interpretare come i mercati finanziari.
La Season 1.5, di fatto, prova a correggere i limiti della prima stagione: non più un solo asset altamente speculativo, ma un ventaglio più ampio di situazioni, più capitale in gioco e un disegno di test più strutturato, con modalità diverse che isolano aspetti come disciplina, prudenza e capacità di adattamento. Per chi guarda da fuori, Alpha Arena diventa anche una cartina di tornasole sull’hype che avviluppa l’AI: se i modelli faticano a battere il mercato con 10.000 dollari, regole chiare e condizioni controllate, forse l’era in cui “lasciamo tutto alle macchine mentre noi andiamo in spiaggia” è ancora un po’ più lontana di quanto suggerisca la narrativa dominante.