Anthropic elimina il “costo fantasma” degli agenti AI: arriva il prompt caching automatico su Claude
Anthropic ha appena aperto un nuovo fronte nella guerra dei costi delle intelligenze artificiali. Il bersaglio è il “costo fantasma” che affligge chiunque abbia mai messo in produzione un agente basato su large language model: un prototipo che funziona, un flusso che convince, e poi… la fattura. Non per le risposte elaborate, ma per il semplice fatto che ogni chiamata API ripete tonnellate di testo identico.
Il problema nascosto: pagare 50 volte lo stesso prompt
Come ha raccontato l’ingegnere Joe Njenga su Medium, nei flussi multi-step la parte più cara non è il “pensiero” del modello, ma la ristampa ossessiva di system prompt, definizioni di strumenti, policy aziendali ed esempi. Un agente che cicla 50 volte con 10.000 token fissi iniziali costringe il developer a sborsare 500.000 token, anche se quel testo non è mai cambiato. Njenga sintetizza: «È come pagare 10 centesimi per ogni dollaro di valore reale».
La risposta di Anthropic: prompt caching in modalità automatica
La contromossa arriva da Anthropic sotto forma di prompt caching automatico nell’API di Claude. Il meccanismo non “ricorda” nulla: semplicemente memorizza un prefisso immutato del prompt e lo riutilizza quando riconosce una sequenza identica, abbassando latenza e prezzo di un ordine di grandezza.
Come funziona il caching automatico
- Punto di corte dinamico: il sistema sposta in avanti il “cache breakpoint” ad ogni turno, includendo tutto il testo già processato.
- Hit vs. miss: se il prefisso combacia, i token vengono caricati dalla cache a un prezzo fino al 90% inferiore.
- Vita della cache: 5 minuti di default, estendibile a 1 ora per flussi batch.
Quanto si risparmia: numeri reali dal pricing ufficiale
Anthropic ha pubblicato una tariffa triplice: token di ingresso base, cache write e cache hit. Su modelli come Sonnet 4.6 un cache hit costa decine di volte meno del token standard. La casa promette riduzioni fino al 90% quando l’agente riutilizza grandi blocchi statici: istruzioni di sicurezza, manuali aziendali, descrizioni di funzioni.
Scenario pratico: 50 turni di agente
Metrica
Senza caching
Con caching
Token di sistema (10k) × 50 turni
500.000 token pagati
10k scritti in cache + 49k hit a prezzo scontato
Costo stimato*
~2,50 $
~0,25 $
Latenza media
800 ms
250 ms
*Prezzi pubblici USA a marzo 2026, modello Sonnet 4.6.
Regole d’oro per sfruttare il caching
- Statico davanti, dinamico dietro. Mettere istruzioni, tool, esempi all’inizio; lasciare user-id, timestamp, output degli strumenti alla fine.
- Non modificare le funzioni a ogni giro. Se cambi la firma degli strumenti rompi il prefisso e invalidi la cache.
- Valuta la finestra temporale. Se il tuo agente “dorme” più di 5 minuti, attiva l’opzione da 1 ora o dividi il workflow.
Il caching diventa standard di settore
Anthropic non è sola. OpenAI offre già un caching implicito su molte API, AWS Bedrock ha annunciato supporto per modelli propri e di terze parti, Google Vertex AI sta pilotando soluzioni simili. Il messaggio è chiaro: in un mondo di agenti long-running, il prompt caching è l’infrastruttura, non un optional.
Governance prima di tutto
Risparmiare non significa perdere di vista il controllo. Un agente che costa poco ma gira senza limiti può comunque generare danni. Il caching elimina il costo del ripetuto, non il rischio del troppo. Monitoring, budget alert e validation layer restano imprescindibili.
FAQ rapide
Il prompt caching dà memoria permanente al modello?No. Ricomputa solo la parte identica del prompt; non ricorda dati utente tra sessioni diverse.
Quanto codice serve per abilitarlo?Un flag cache_control: {type: “ephemeral”} a livello di messaggio o turno. Il resto è gestito da Anthropic.
Posso usarlo con function calling?Sì, purché la firma delle funzioni resti invariata per tutta la sessione.
Cosa succede se supero i 5 minuti di default?Il blocco cached scade e il prefisso viene riscritto al primo utilizzo successivo; attiva l’opzione ttl: “3600s” se prevedi pause lunghe.
Il prompt caching automatico di Anthropic è già disponibile in tutte le regioni dove è attiva l’API di Claude 3.5 e 4.6. Per developer e CIO significa poter finalmente scalare agenti complessi senza il fantasma di una fattura esponenziale.
Lascia un commento