ai-fundamentals
10 min read
View as Markdown

Costi dell'IA spiegati: perché i token costano e come fare budget

Guida pratica ai prezzi dell'IA per chi lavora in azienda. Come funzionano i costi delle API, quanto costano davvero i token e strategie per ottenere più valore senza sforare il budget.

Robert Soares

La prima volta che vedi una fattura API per l’IA, sembra sbagliata.

Spiccioli a richiesta. Frazioni di centesimo a token. Pensi: praticamente è gratis. Poi vai in produzione e guardi l’estratto conto della carta avvicinarsi alle quattro cifre in una settimana, e all’improvviso l’economia sembra molto diversa.

Il modello di prezzo è semplice, appena lo capisci. Il problema è che la maggior parte delle persone lo impara facendosi sorprendere prima. Ed è un modo costoso di imparare qualsiasi cosa.

Per cosa stai davvero pagando

Ogni volta che invii un prompt a un modello di IA, migliaia di GPU si mettono al lavoro. Succedono miliardi di calcoli. Solo la bolletta elettrica per fare inferenza su larga scala è da capogiro. Non stai pagando l’addestramento che è già stato fatto. Stai pagando il calcolo che avviene adesso, ogni singola volta che fai una richiesta.

I tre modi principali di pagare si dividono così:

Abbonamenti: da 20 a 200 dollari al mese per accedere a un’interfaccia di chat con limiti d’uso inclusi. ChatGPT Plus, Claude Pro, Gemini Advanced. Semplice. Prevedibile. Limitato.

Prezzi API: paghi per token, che è l’unità di misura per il testo che entra ed esce dal modello. Ogni parola costa. Ogni risposta costa di più. Costi variabili, ma controllo totale sull’integrazione.

Accordi enterprise: negoziazione su misura per grandi organizzazioni, con sconti a volume, accordi sui livelli di servizio e supporto dedicato integrati in impegni pluriennali.

Per chiunque stia costruendo qualcosa che vada oltre la chat casuale, i prezzi API sono il gioco.

I token sono strani

Un token è circa 3 o 4 caratteri. In media circa il 75% di una parola. “Hello” è un token. “Anthropomorphic” sono quattro.

Perché non far pagare a parola? Perché i modelli non vedono le parole. Vedono token: sono le vere unità di calcolo che lavorano sotto il cofano. Un documento da 1.000 parole sta intorno a 1.333 token. Un tipico ping-pong con un’IA può usare da 2.000 a 5.000 token contando sia le tue domande sia le risposte.

I prezzi sono quotati per milione di token. Quando vedi “$2.50 per 1M di token di input”, significa:

  • 1.000 token costano un quarto di centesimo
  • 10.000 token costano 2,5 centesimi
  • 100.000 token costano 25 centesimi

Questi numeri sembrano irrilevanti finché non li moltiplichi per volumi reali. Poi diventano molto meno irrilevanti, molto in fretta.

L’output costa più dell’input

Qui è dove il modello mentale della maggior parte delle persone si rompe.

I token di output costano da 3 a 10 volte più dei token di input praticamente per ogni fornitore. Il modello “fatica” di più a generare testo nuovo che a leggere testo esistente. Leggere è relativamente economico. Scrivere è costoso dal punto di vista computazionale.

Per GPT-4o, l’input è circa $2.50 per milione di token, mentre l’output è $10 per milione. Claude Sonnet fa pagare $3 per l’input e $15 per l’output. Il modello si ripete ovunque.

Questo significa che un prompt con 500 token di input e 500 token di output non costa come 1.000 token a una qualche tariffa “media”. L’output domina. In quell’esempio, l’output costa quattro volte l’input pur avendo lo stesso numero di token.

La conseguenza per ottimizzare i costi è chiara: controllare la lunghezza dell’output conta più che tagliare i prompt.

La forbice dei prezzi è enorme

I prezzi attuali per il 2026 vanno da frazioni di centesimo a decine di dollari per milione di token, e il modello che scegli decide a quale estremità dello spettro finisci.

La fascia “budget” gestisce bene la maggior parte dei compiti. Gemini 2.5 Flash costa $0.15 di input e $0.60 di output per milione di token. Claude Haiku sta a $1 di input e $5 di output. Questi modelli coprono il 70–80% dei casi d’uso tipici in azienda.

La fascia intermedia offre una qualità sensibilmente migliore a un costo 10–20 volte superiore. Claude Sonnet a $3 di input e $15 di output. GPT-4o a tariffe simili. Il salto di capacità giustifica il sovrapprezzo per compiti che richiedono sfumature o ragionamenti complessi.

I modelli premium chiedono il massimo. Claude Opus costa $5 di input e $25 di output per la versione più recente. Alcuni modelli focalizzati sul ragionamento, come la serie o1 di OpenAI, arrivano a $15 di input e $60 di output. Esistono per compiti in cui la qualità batte tutto il resto.

Poi c’è DeepSeek, che offre $0.28 di input e $0.42 di output con capacità competitive. Il problema è che è un modello sviluppato in Cina, e questo conta per alcuni scenari enterprise legati a conformità normativa o requisiti di residenza dei dati.

Lo stesso carico di lavoro può costare $17 al mese o $500 al mese, dipendendo solo dalla scelta del modello.

Come lo vivono davvero gli sviluppatori

La community degli sviluppatori ha parecchio da dire sulla curva di apprendimento.

Uno sviluppatore che stava costruendo uno strumento di analisi dei riscontri ha descritto la sua sveglia: “I noticed how quickly the costs can spiral out of control. A simple task routed to GPT-4 by mistake, an inefficient prompt, or running the same query over and over—it all adds up.”

È un’esperienza comune. Il divario tra “sembra economico” e “aspetta, la mia fattura è di quanto?” può chiudersi in fretta.

Un altro sviluppatore ha raccontato il suo percorso di taglio costi dopo aver visto una fattura mensile da $70: “Dropped Claude Sonnet entirely—tested both models on the same data, Haiku actually performed better at a third of the cost.” Ha ridotto i costi mensili a pochi centesimi filtrando le richieste irrilevanti prima ancora che arrivassero all’API e accorciando gli output a abbreviazioni dove non servivano parole intere.

La scelta del modello torna fuori continuamente come la leva più grande. Un commentatore su Hacker News ha notato: “Gemini performs similar to the GPT models, and with the cost difference there is little reason to choose OpenAI” per il suo caso d’uso di domotica.

Il pattern in queste storie è coerente: la maggior parte dei progetti all’inizio sovrastima la capacità del modello, poi ottimizza verso il basso quando arrivano le fatture.

Le trappole nascoste della fatturazione

Alcune cose sorprendono le persone oltre la matematica “pura” dei token.

I limiti di spesa non sempre funzionano. Utenti sul forum sviluppatori di OpenAI hanno riportato addebiti da $300 a $1.000 oltre i loro limiti rigidi, con uno che ha scritto semplicemente: “I spent way more than expected. I knew it could happen, but I relied on the organization spending limit.”

I token di ragionamento sono una categoria di costo più recente che fa inciampare molte persone. Modelli con capacità di “pensiero”, come la serie o di OpenAI, generano token di ragionamento interni che contano nei costi di output ma non compaiono mai nella risposta visibile. Un problema di matematica complesso può usare 87.000 token di ragionamento per produrre 500 parole di output visibile, e tu paghi per tutto.

Il sovraccarico della finestra di contesto è invisibile ma caro. Ogni chiamata API include il prompt di sistema, l’eventuale cronologia della conversazione e qualunque documento tu stia passando. In una conversazione lunga o in un setup di generazione aumentata dal recupero, questo sovraccarico può rappresentare il 50% o più dell’uso di token prima ancora che tu faccia la domanda vera.

Rendere i costi prevedibili

Le organizzazioni che gestiscono bene i costi dell’IA hanno pratiche in comune.

Primo: partono da modelli più economici e salgono solo quando il divario di qualità è dimostrabile. La maggior parte dei compiti non ha bisogno del modello costoso. Il modello costoso è per quando quello economico fallisce, non per quando non sai quale scegliere.

Secondo: misurano in modo ossessivo. Come l’ha messa uno sviluppatore: non puoi ottimizzare ciò che non misuri. Strumenti come Helicone, LangSmith e le dashboard native dei fornitori ti permettono di attribuire i costi a funzioni specifiche, utenti o flussi di lavoro.

Terzo: controllano aggressivamente la lunghezza dell’output. Visto che i token di output dominano i costi, chiedere risposte più brevi ha un impatto sproporzionato. “H/M/L” invece di “high/medium/low” sembra una sciocchezza finché non lo moltiplichi per milioni di classificazioni.

Quarto: mettono in cache le risposte per le query ripetute. Se il 20% delle tue query rappresenta l’80% del volume e quelle query hanno risposte stabili, la cache si ripaga subito.

Quinto: usano l’elaborazione in batch quando la latenza lo permette. La batch API di OpenAI offre sconti del 50% sulle richieste elaborate in modo asincrono entro 24 ore. Se non ti servono risposte immediate, non devi pagare prezzi da immediato.

Che aspetto ha una spesa ragionevole?

Numeri indicativi per diverse fasi di progetto, tenendo presente che i costi reali variano enormemente in base al caso d’uso:

Un prototipo che “mangia” $100–$500 al mese sta testando idee e provando concetti, probabilmente usando modelli economici con un po’ di controllo qualità manuale.

Un pilot in produzione da $500–$2.000 al mese serve una base utenti limitata con carichi reali, dimensionando i modelli in base a ciò che il prototipo ha insegnato.

La produzione piena, da $2.000 a $10.000+ al mese, scala con il volume reale degli utenti con ottimizzazione attiva basata sui pattern d’uso osservati.

Questi intervalli possono cambiare drasticamente in base alla tua applicazione. Un chatbot semplice può costare $50 al mese. Una pipeline di elaborazione documentale che gestisce milioni di pagine può costare $50.000.

La tendenza è tua amica

I prezzi continuano a scendere. Velocemente.

Capacità che nel 2023 costavano $30–$60 per milione di token oggi costano $2–$10. La concorrenza di Google, Anthropic e dei fornitori open source continua a spingere le tariffe verso il basso. Il calo dei prezzi, in realtà, è accelerato nell’ultimo anno.

Questo ha alcune implicazioni che vale la pena considerare.

Progetti che 12 mesi fa non erano economici oggi potrebbero funzionare ai prezzi attuali.

Qualunque cosa tu costruisca ora diventerà più economica da far girare col tempo, anche se non cambi nulla.

Bloccarsi in impegni di prezzo a lungo termine alle tariffe di oggi potrebbe non avere senso quando le tariffe dell’anno prossimo potrebbero essere sostanzialmente più basse.

Cosa significa per te

Il modello di prezzo è semplice: token in, token out, l’output costa più dell’input, modelli diversi costano importi diversi. Tutto il resto sono dettagli di ottimizzazione.

La parte difficile non è capire i prezzi. La parte difficile è costruire la disciplina per misurare quanto stai spendendo, testare se i modelli più economici vanno bene per il tuo caso d’uso ed evitare l’errore facile: partire per default dal modello costoso perché “sembra più sicuro”.

La maggior parte dei progetti sta pagando troppo per capacità che non servono. La maggior parte dei problemi di costo viene dalla scelta del modello e dalla verbosità dell’output, più che da qualunque cosa “furba”. Gli sviluppatori che gestiscono bene i costi fanno cose noiose in modo costante: misurano, testano opzioni più economiche, vincolano la lunghezza dell’output, mettono in cache le richieste ripetute.

Quanto costerebbe il tuo carico di lavoro IA attuale a 10x il volume? A 100x? Il modello che stai usando è davvero necessario, o è solo quello con cui hai iniziato? Quanta parte del tuo budget di token va al sovraccarico di contesto invece che a lavoro davvero utile?

Le risposte a queste domande contano più delle tabelle prezzi.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you