Il divario tra i modelli di IA open source e quelli a sorgente chiusa si è praticamente azzerato. Un anno fa, i modelli open erano indietro di 17,5 punti percentuali nei benchmark standard. Oggi, quel divario è di 0.3 punti. Llama, Mistral, DeepSeek e Qwen ora eguagliano GPT-4 e Claude nella maggior parte dei test.
Allora perché i modelli chiusi catturano ancora l’80% dell’utilizzo e il 96% dei ricavi?
È questa la domanda che vale la pena sviscerare. Non quale sia “migliore”, ma quando ha senso ciascuno e quali compromessi stai davvero accettando.
Cosa significano “aperto” e “chiuso” (è più complicato di quanto pensi)
Sono termini usati con troppa leggerezza. Ecco qual è davvero la distinzione.
I modelli a sorgente chiusa come GPT-4, Claude e Gemini girano sui server del fornitore. Invi il testo tramite un’API, ricevi una risposta. Non puoi vedere i pesi del modello, non puoi modificarli, non puoi eseguirli sul tuo hardware. Il modello è una scatola nera a cui affitti l’accesso.
I modelli open source (o, più precisamente, modelli “a pesi aperti”) come Llama, Mistral e DeepSeek pubblicano i loro pesi. Puoi scaricarli. Eseguirli sulla tua macchina. Affinarli per compiti specifici. Ispezionare cosa stanno facendo. Distribuirli dove vuoi.
La distinzione conta meno per un uso occasionale. Se stai facendo una domanda a Claude o generando un’email di marketing, probabilmente non ti importa di poter vedere i pesi. Ma per le aziende che costruiscono prodotti sull’IA, la differenza è sostanziale: controllo sui dati, personalizzazione, struttura dei costi e cosa succede quando il fornitore cambia qualcosa.
Il divario di costo è più grande di quanto pensi
I modelli chiusi costano circa l’87% in più da eseguire. In media, $1.86 per milione di token contro $0.23 per alternative open.
A basso volume, quasi non si nota. Se spendi $50 al mese in chiamate API, un risparmio dell’87% sono $43. Bello, ma non vale rimettere mano alla tua architettura.
Su larga scala, la matematica cambia completamente. I ricercatori del MIT Sloan stimano che una riallocazione ottimale dai modelli chiusi a quelli open potrebbe far risparmiare all’economia globale dell’IA circa $25 miliardi l’anno.
Ma il costo non è solo il prezzo per token. Ospitare in proprio un modello open significa hardware, manutenzione, tempo di ingegneria. Una configurazione tipica di Llama 70B richiede 8x GPU A100, circa $80.000 l’anno di costi cloud più un team per gestirla. Va in pareggio rispetto ai costi dell’API di GPT-4 intorno ai 20-30 milioni di token al mese.
Al di sotto di quella soglia, pagare il sovrapprezzo dell’API spesso costa meno che gestire un’infrastruttura propria. Al di sopra, l’hosting in proprio inizia ad avere senso sul piano economico.
Come l’ha detto Frank Nagle, ricercatore dello studio del MIT: “The difference between benchmarks is small enough that most organizations don’t need to be paying six times as much just to get that little bit of performance improvement.”
I principali attori
Il panorama si è frammentato negli ultimi due anni. Ecco dove siamo.
A sorgente chiusa:
- OpenAI (GPT-4, GPT-4o, o1, o3) resta la scelta predefinita per molti. Ragionamento generale solido, iterazioni rapide, integrazioni profonde.
- Anthropic (Claude 3.5 Sonnet, Claude 4) si è costruita una reputazione per scrittura sfumata e risposte attente alla sicurezza. Oltre il 60% dei carichi di lavoro di programmazione su OpenRouter va a Claude.
- Google (Gemini) offre finestre di contesto enormi e un’integrazione stretta con l’ecosistema Google.
Open source:
- La famiglia Llama di Meta domina l’ecosistema open source occidentale. Llama 4, rilasciata ad aprile 2025, include modelli che vanno da 17B a 288B parametri. I download sono quasi raddoppiati da 350 milioni a 650 milioni tra luglio e dicembre 2024.
- DeepSeek è emersa come attore di primo piano, guidando l’uso di token open source con 14.37 trilioni di token elaborati. Il loro modello di ragionamento R1 sfida in particolare l’o1 di OpenAI.
- Mistral, la startup francese, offre modelli efficienti che rendono più di quanto promettano i numeri, soprattutto per le imprese europee preoccupate per la sovranità dei dati.
- Qwen, di Alibaba, è cresciuta rapidamente, classificandosi seconda per uso open source con 5.59 trilioni di token.
La dinamica competitiva sta cambiando. Entro la fine del 2025, i modelli cinesi (principalmente DeepSeek e Qwen) hanno raggiunto circa il 15% dell’uso globale dell’IA, contro circa l’1% un anno prima. Nessun singolo modello supera più il 25% della quota di token open source.
Privacy e controllo dei dati
È qui che la scelta diventa personale.
Con i modelli chiusi, i tuoi dati finiscono sui server di qualcun altro. OpenAI, Anthropic e Google affermano tutti di non addestrare sui dati degli input API (con alcune condizioni), ma ti stai fidando della loro parola e della loro sicurezza. Se sei in sanità, finanza, legale o in qualunque settore con requisiti di conformità rigidi, quella fiducia è un fattore reale.
Con i modelli open, puoi eseguire tutto in locale. I dati non escono mai dalla tua infrastruttura. Controlli cifratura, accessi, conservazione.
Un commentatore di Hacker News ha sintetizzato il ragionamento così: “Spending ~$3.000+ on a laptop to run local models is only economically sensible if you are VERY paranoid.” È Simon Willison, uno sviluppatore noto nello spazio IA. Non ha torto: l’hosting locale costa. Ma per alcune organizzazioni, “molto paranoico” si chiama semplicemente conformità.
Il quadro privacy si complica con i modelli open source cinesi. L’Italia ha vietato DeepSeek-R1 ad aprile 2025 per violazioni del GDPR. I ricercatori hanno documentato casi in cui il ragionamento interno di DeepSeek mostra un’analisi su temi politici sensibili ma restituisce un’altra risposta. Puoi eseguire questi modelli in locale, ma il loro addestramento e il loro allineamento portano con sé un contesto particolare.
Prestazioni: dipende da cosa devi fare
La domanda secca “quale è meglio” manca il punto. Modelli diversi eccellono in cose diverse.
I modelli chiusi sono ancora avanti nei compiti più impegnativi. Ragionamento complesso, scrittura più sfumata, alcuni benchmark di programmazione. Claude, in particolare, è diventato il punto di riferimento per gli sviluppatori che affrontano problemi di coding difficili.
I modelli open hanno recuperato per la maggior parte delle applicazioni pratiche. E per casi d’uso specifici, possono essere affinati fino a superare i modelli chiusi generalisti su compiti molto mirati.
Come ha detto un utente di Hacker News: “Deepseek is my favourite model to use for coding tasks…it has outstanding task adhesion, code quality is consistently top notch & it is never lazy.”
Lo schema che emerge dai dati d’uso: i modelli chiusi catturano i compiti ad alto valore, quelli open catturano i compiti ad alto volume e valore più basso. Come riporta l’analisi di OpenRouter: “a simple heuristic: closed source models capture high value tasks, while open source models capture high volume lower value tasks.”
Quell’euristica è utile, ma non universale. Molti sistemi di produzione ad alto valore girano su modelli open. I compromessi sono reali, ma lo è anche la capacità.
Cosa può fare l’open source che i modelli chiusi non possono
Ci sono cose che con un modello chiuso semplicemente non puoi fare.
Affinare su dati proprietari. Con le API dei modelli chiusi puoi farlo in qualche modo, ma sei limitato da ciò che il fornitore ti concede. Con i modelli open, hai pieno controllo. Addestra sul gergo del tuo settore, sulla documentazione della tua azienda, sul tuo dominio specifico.
Esecuzione in ambienti isolati. Alcuni contesti non possono connettersi ad API esterne. Difesa, alcuni sistemi sanitari, reti aziendali protette. I modelli open sono l’unica opzione.
Personalizzare il comportamento a livello di modello. Non solo dare istruzioni diverse, ma modificare davvero come il modello elabora e risponde.
Evitare la dipendenza da un fornitore. Quando tutto il tuo prodotto dipende da un’API, dipendi dai prezzi, dalla disponibilità e dalle decisioni di policy di quel fornitore. A gennaio 2025, quando DeepSeek ha rilasciato R1 e il mercato azionario dell’IA ha avuto un breve momento di panico, le aziende basate su API chiuse si sono ricordate quanto dipendano dalla tabella di marcia di qualcun altro.
Cosa possono fare i modelli chiusi che l’open (quasi) non può
I compromessi vanno in entrambe le direzioni.
Prestazioni all’avanguardia. I modelli migliori in assoluto, sui benchmark più duri, sono ancora a sorgente chiusa. Se ti serve la massima capacità e puoi permettertela, Claude Opus o GPT-4 restano la risposta.
Semplicità. Nessuna infrastruttura da gestire. Nessun costo GPU. Nessun aggiornamento del modello da seguire. Solo una chiave API e un rapporto di fatturazione. Per team piccoli o prototipi rapidi, quella semplicità ha valore.
Funzionalità per grandi aziende. Conformità SOC 2, SLA enterprise, pannelli di amministrazione, log di audit. Anthropic e OpenAI hanno costruito l’infrastruttura che le grandi organizzazioni si aspettano.
Miglioramento continuo. I fornitori di modelli chiusi aggiornano regolarmente i loro modelli. A volte questo rompe le cose (chiedilo a chiunque si sia appoggiato a comportamenti specifici di GPT-4 che poi sono cambiati), ma per lo più significa prestazioni migliori nel tempo senza muovere un dito.
Il vero quadro decisionale
Dimentica il tribalismo. Ecco quando ha senso ciascun approccio.
L’open source ha senso quando:
- Stai elaborando volumi enormi (milioni di token al mese)
- I dati non possono uscire dalla tua infrastruttura per motivi di conformità o sicurezza
- Devi affinare su dati di dominio molto specifici
- Vuoi evitare la dipendenza da un’API per una funzione di business centrale
- Hai (o puoi assumere) la capacità ingegneristica per eseguire e mantenere i modelli
I modelli chiusi hanno senso quando:
- Ti serve la massima capacità, il costo è secondario
- Il volume è abbastanza moderato da non far dominare i costi API
- Vuoi muoverti veloce senza il peso dell’infrastruttura
- Stai prototipando o validando prima di impegnarti su un’architettura
- Il tuo team è concentrato sul prodotto, non sulle operazioni dei modelli
Molte organizzazioni finiscono per usare entrambi. Modelli chiusi per compiti complessi, dove la qualità conta di più. Modelli open per applicazioni ad alto volume e sensibili ai costi. La mossa intelligente spesso non è schierarsi, ma sapere quando ciascun approccio calza.
La convergenza che ci aspetta
I modelli open oggi arrivano all’89,6% delle prestazioni dei modelli chiusi al momento del rilascio, e in genere li eguagliano entro 13 settimane. Un anno fa, quel periodo di recupero era di 27 settimane.
Il divario di prestazioni continua a ridursi. Quello di costo no. Anzi: i modelli open diventano sempre più economici mentre i prezzi dei modelli chiusi sono rimasti relativamente stabili.
Questo non significa che i modelli chiusi siano condannati. Probabilmente terranno la frontiera, almeno per i problemi più difficili. E la semplicità del “basta usare l’API” non sparirà. Ma il caso economico per l’open source continua a rafforzarsi, e la scusa della capacità per evitarlo continua a indebolirsi.
Quel che resta poco chiaro è se l’ecosistema attuale possa reggersi. Meta spende miliardi per sviluppare Llama e lo rilascia gratis. I guadagni di efficienza di DeepSeek arrivano da un laboratorio cinese con accesso a calcolo a basso costo. Nessuno dei due modelli di business è ovvio, a meno che tu non strizzi gli occhi sui secondi effetti (Meta vuole l’IA ovunque per alimentare l’engagement; DeepSeek è un hedge fund che vuole un’IA migliore per il trading). La domanda su chi paghi lo sviluppo dell’IA open, e su come questo plasmi ciò che viene costruito, è ancora aperta.