I fogli di calcolo di confronto delle funzionalità mentono.
Ogni fornitore di IA ha un elenco di funzionalità impressionante. Ogni demo gira alla perfezione su dati preparati. Ogni presentazione commerciale promette una trasformazione che non arriva mai davvero nel modo in cui l’hanno venduta, e lo scopri solo dopo aver firmato un contratto che ti lega per diciotto mesi.
Il panorama dei fornitori di IA punisce gli approcci tradizionali di valutazione perché quegli approcci sono stati progettati per software che funziona allo stesso modo ogni volta che lo esegui, che è esattamente ciò che gli strumenti di IA non fanno. Un modello che eccelle sul tuo prompt di test potrebbe allucinare sui dati reali che gli dai in pasto tre settimane dopo l’implementazione. Il fornitore che sembra reattivo durante la trattativa potrebbe impiegare giorni a rispondere dopo la firma.
Qualcosa deve cambiare nel modo in cui valutiamo.
Cosa nascondono davvero gli elenchi di funzionalità
I fornitori competono a colpi di conteggio delle funzionalità. Più funzionalità suggeriscono più valore. Questa logica crolla quando la applichi all’IA.
Una funzionalità che esiste non è una funzionalità che funziona per il tuo caso d’uso. Il divario tra “il nostro prodotto può fare X” e “il nostro prodotto fa X in modo affidabile per clienti come te” spesso è enorme, e i fornitori hanno un incentivo economico a confondere quella distinzione a ogni occasione.
Pensa alle capacità dei modelli. Oggi la maggior parte dei fornitori offre accesso a modelli di frontiera di OpenAI, Anthropic e Google. Il modello in sé si standardizza. Quello che conta è tutto ciò che c’è attorno a quel modello: l’infrastruttura dei prompt, la qualità delle integrazioni, la gestione degli errori quando le cose vanno storte. Questi dettagli di implementazione raramente compaiono nelle pagine di confronto delle funzionalità.
simonw, creatore di Datasette e una voce rispettata sugli strumenti di IA, ha catturato questa realtà in una discussione su Hacker News sulla valutazione dell’IA:
“If you try to fix problems by switching from eg Gemini 2.5 Flash to OpenAI o3 but you don’t have any evals in place how will you tell if the model switch actually helped?”
Il modello conta meno della tua capacità di misurare che cosa qualunque modello faccia per te. I fornitori che spingono i nomi dei modelli come principale argomento di vendita spesso stanno nascondendo un’infrastruttura debole dietro una credibilità presa in prestito.
Segnali d’allarme che le presentazioni dei fornitori creano
Guarda come i fornitori rispondono a domande specifiche sui limiti, e capisci tutto quello che ti serve sulla relazione in cui staresti entrando.
La deviazione sulle demo preparate. Descrivi il tuo caso specifico. Loro mostrano un’altra demo. Succede continuamente. La demo preparata funziona perché è stata ingegnerizzata per funzionare. Il tuo caso non lo è. Quella deviazione ti dice che o non riescono a gestire il tuo scenario, o scelgono di non mostrarti il loro strumento mentre fatica.
Vaghezza sui dati di addestramento. Da dove arrivano i dati usati per addestrare i loro modelli personalizzati? Molti fornitori non possono o non vogliono rispondere. Questo conta sia per la qualità sia per il rischio legale. Modelli addestrati su dati estratti dal web di provenienza incerta portano un’esposizione al diritto d’autore che potrebbe finire sulla tua scrivania più avanti.
L’assenza di storie di fallimento. Ogni strumento fallisce a volte. I fornitori che sostengono il contrario stanno mentendo o non sono mai stati testati su scala. I fornitori onesti descrivono dove i loro strumenti arrancano. Conoscono i loro limiti perché hanno visto clienti veri sbatterci contro. Questa onestà segnala una collaborazione, non solo vendita.
Funzionalità future come valore presente. “Quella capacità è sulla nostra roadmap” significa “non abbiamo quella capacità.” Valuta ciò che esiste, non ciò che potrebbe esistere. Le roadmap cambiano. I finanziamenti si esauriscono. Le priorità si spostano. Funzionalità promesse per Q3 a volte non arrivano mai.
Fare valutazioni che fanno emergere la verità
Le demo mostrano i casi migliori. Una valutazione vera richiede costruire test in cui lo strumento che scegli potrebbe fallire, poi osservare da vicino come fallisce.
Inizia dai casi limite del tuo lavoro reale. Non campioni rappresentativi. Casi limite. Le richieste strane che confondono il tuo team umano. I formati di dati disordinati che ricevi davvero. Le domande insolite che i clienti ogni tanto fanno. Strumenti di IA che gestiscono bene i casi tipici ma crollano sui casi limite genereranno escalation e frustrazione una volta in produzione.
Nathan Lambert, un ricercatore che scrive molto sulle capacità dei modelli di IA, ha raccontato la sua esperienza di passaggio:
“Claude 3.5 just does what I need a few percentage points more reliably than ChatGPT”
Qualche punto percentuale. È così che si manifestano le differenze reali. Non con divari drammatici che chiunque vede in una demo, ma con piccoli scarti di affidabilità che, su migliaia di utilizzi, si sommano fino a diventare impatti enormi sul modo di lavorare. Non puoi vedere questi scarti senza test prolungati sui tuoi compiti reali.
Struttura la tua valutazione per far emergere questi scarti:
Esegui prompt identici tra fornitori. Stesso input, strumenti diversi, risultati misurati. Fallo su scala. Non cinque test. Almeno cinquanta. Cento se la decisione conta abbastanza.
Testa nel tempo. Uno strumento che funziona perfettamente lunedì potrebbe arrancare giovedì se il fornitore sta gestendo problemi di capacità o rilasciando aggiornamenti. Una valutazione di un giorno ti parla di un giorno. Due settimane iniziano a rivelare schemi.
Coinvolgi chi userà davvero lo strumento. I valutatori tecnici testano cose diverse dagli utenti quotidiani. Entrambe le prospettive contano. Chi userà questo strumento otto ore al giorno nota attriti che chi prova per un pomeriggio non vedrà.
Documenta gli errori con precisione. Quando qualcosa va storto, cattura esattamente che cosa è andato storto. La qualità del supporto del fornitore si vede in come risponde agli errori documentati. Alcuni fornitori fanno diagnosi. Altri sviano.
Il vincolo da fornitore di cui nessuno parla abbastanza presto
I costi di migrazione nell’IA crescono più in fretta di quanto la gente si aspetti.
Costruisci prompt. Addestri i team sulle interfacce. Integri gli strumenti nei modi di lavorare. Scrivi documentazione interna. Sviluppi conoscenza informale su cosa funziona e cosa evitare. Tutto questo diventa un costo sommerso che rende il cambio doloroso anche quando sarebbe la scelta giusta.
Un sondaggio del 2025 tra leader IT ha rilevato che il 45% afferma che la dipendenza dal fornitore ha già ostacolato la capacità di adottare strumenti migliori. Quasi metà delle organizzazioni si sente intrappolata con fornitori scelti prima di comprendere tutte le implicazioni di quella scelta.
Considera questo vincolo durante la valutazione iniziale, non dopo. Fai ai fornitori domande scomode:
Riuscite a esportare tutti i modelli di prompt e le configurazioni in un formato portabile? Che cosa succede ai vostri dati se ve ne andate? Ci sono penali di uscita? Quanto tempo richiede la cancellazione dei dati? Usano i vostri dati per addestrare modelli da cui potrebbero beneficiare i concorrenti?
I fornitori che rispondono a queste domande in modo chiaro e favorevole sono fornitori che credono che sarà la qualità del prodotto, non i costi di migrazione, a tenerti come cliente. Quella fiducia è un segnale che vale la pena notare.
Anche le decisioni architetturali fatte durante l’implementazione influenzano il vincolo. Costruire astrazioni tra i tuoi sistemi e l’API del fornitore crea flessibilità futura. Codificare logica specifica del fornitore in tutta la tua base di codice crea una dipendenza che diventa sempre più difficile da spezzare col passare del tempo.
Un certo vincolo è accettabile. Non ottieni integrazione profonda senza un po’ di impegno. Ma conoscere il tuo livello di dipendenza e sceglierlo consapevolmente è diverso dallo scoprirlo per caso quando provi ad andartene.
Cosa le dimostrazioni non possono mostrarti
La qualità del supporto.
Durante la vendita, ogni domanda riceve una risposta rapida. Dopo la firma, i tempi di risposta a volte si allungano drasticamente. Il team di supporto che ti vende non è il team di supporto che ti aiuta, e gli incentivi cambiano una volta chiuso l’accordo.
Chiedi referenze specificamente sulle esperienze di supporto. Non clienti di riferimento che hanno implementato con successo e non hanno mai avuto bisogno di aiuto. Referenze che hanno avuto problemi. Come sono stati gestiti? Quanto tempo ha richiesto la risoluzione? Si sono sentiti partner o ticket in una coda?
Conta anche la capacità di cambiamento dell’organizzazione. Uno strumento che il tuo team non userà fallisce a prescindere dalle capacità. Capire la disponibilità della tua organizzazione verso una nuova tecnologia, i requisiti di formazione e la tolleranza al cambiamento dovrebbe influenzare la scelta del fornitore tanto quanto il confronto delle funzionalità.
E forse, cosa più importante: conta il processo di valutazione stesso. Il comportamento dei fornitori durante la valutazione predice come si comporteranno come partner. Tattiche di pressione durante la vendita suggeriscono tattiche di pressione ai rinnovi. Trasparenza sui limiti suggerisce trasparenza sui problemi. La relazione che vivi mentre valuti spesso è la versione migliore della relazione che avrai mai con quel fornitore.
La domanda che rimpiazza tutte le liste di controllo
I quadri di valutazione danno struttura. La struttura aiuta. Ma ogni quadro, prima o poi, produce un punteggio ponderato che oscura la decisione che nessun sistema di punteggio può prendere al posto tuo.
Quando i professionisti descrivono le loro migliori decisioni sui fornitori di IA, raramente parlano di quadri di valutazione. Parlano di compatibilità. Lo strumento che ha funzionato era quello che si adattava a come il loro team lavora davvero, che affrontava i loro problemi specifici, che risultava giusto nell’uso quotidiano una volta svanito l’effetto lucido della demo.
La domanda che conta: “In base a tutto quello che abbiamo imparato durante la valutazione, crediamo che questo fornitore ci aiuterà ad avere successo, e ci fidiamo abbastanza da costruire una dipendenza dalla sua infrastruttura?”
La fiducia è difficile da trasformare in un numero su un foglio di calcolo. Emerge guardando come le persone si comportano quando le cose diventano difficili. Le valutazioni migliori creano piccole difficoltà di proposito, poi osservano con attenzione.
Ad alcuni fornitori questo approccio non piacerà. Quei fornitori ti stanno dicendo qualcosa di importante.