Marzo 2026
L	M	M	G	V	S	D
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Written by aitorMarzo 11, 2026

Anthropic elimina il “costo fantasma” degli agenti AI: arriva il prompt caching automatico su Claude

Anthropic ha appena aperto un nuovo fronte nella guerra dei costi delle intelligenze artificiali. Il bersaglio è il “costo fantasma” che affligge chiunque abbia mai messo in produzione un agente basato su large language model: un prototipo che funziona, un flusso che convince, e poi… la fattura. Non per le risposte elaborate, ma per il semplice fatto che ogni chiamata API ripete tonnellate di testo identico.

Il problema nascosto: pagare 50 volte lo stesso prompt

Come ha raccontato l’ingegnere Joe Njenga su Medium, nei flussi multi-step la parte più cara non è il “pensiero” del modello, ma la ristampa ossessiva di system prompt, definizioni di strumenti, policy aziendali ed esempi. Un agente che cicla 50 volte con 10.000 token fissi iniziali costringe il developer a sborsare 500.000 token, anche se quel testo non è mai cambiato. Njenga sintetizza: «È come pagare 10 centesimi per ogni dollaro di valore reale».

La risposta di Anthropic: prompt caching in modalità automatica

La contromossa arriva da Anthropic sotto forma di prompt caching automatico nell’API di Claude. Il meccanismo non “ricorda” nulla: semplicemente memorizza un prefisso immutato del prompt e lo riutilizza quando riconosce una sequenza identica, abbassando latenza e prezzo di un ordine di grandezza.

Come funziona il caching automatico

Punto di corte dinamico: il sistema sposta in avanti il “cache breakpoint” ad ogni turno, includendo tutto il testo già processato.
Hit vs. miss: se il prefisso combacia, i token vengono caricati dalla cache a un prezzo fino al 90% inferiore.
Vita della cache: 5 minuti di default, estendibile a 1 ora per flussi batch.

Quanto si risparmia: numeri reali dal pricing ufficiale

Anthropic ha pubblicato una tariffa triplice: token di ingresso base, cache write e cache hit. Su modelli come Sonnet 4.6 un cache hit costa decine di volte meno del token standard. La casa promette riduzioni fino al 90% quando l’agente riutilizza grandi blocchi statici: istruzioni di sicurezza, manuali aziendali, descrizioni di funzioni.

Scenario pratico: 50 turni di agente

Metrica
Senza caching
Con caching

Token di sistema (10k) × 50 turni
500.000 token pagati
10k scritti in cache + 49k hit a prezzo scontato

Costo stimato*
~2,50 $
~0,25 $

Latenza media
800 ms
250 ms

*Prezzi pubblici USA a marzo 2026, modello Sonnet 4.6.

Regole d’oro per sfruttare il caching

Statico davanti, dinamico dietro. Mettere istruzioni, tool, esempi all’inizio; lasciare user-id, timestamp, output degli strumenti alla fine.
Non modificare le funzioni a ogni giro. Se cambi la firma degli strumenti rompi il prefisso e invalidi la cache.
Valuta la finestra temporale. Se il tuo agente “dorme” più di 5 minuti, attiva l’opzione da 1 ora o dividi il workflow.

Il caching diventa standard di settore

Anthropic non è sola. OpenAI offre già un caching implicito su molte API, AWS Bedrock ha annunciato supporto per modelli propri e di terze parti, Google Vertex AI sta pilotando soluzioni simili. Il messaggio è chiaro: in un mondo di agenti long-running, il prompt caching è l’infrastruttura, non un optional.

Governance prima di tutto

Risparmiare non significa perdere di vista il controllo. Un agente che costa poco ma gira senza limiti può comunque generare danni. Il caching elimina il costo del ripetuto, non il rischio del troppo. Monitoring, budget alert e validation layer restano imprescindibili.

FAQ rapide

Il prompt caching dà memoria permanente al modello?No. Ricomputa solo la parte identica del prompt; non ricorda dati utente tra sessioni diverse.

Quanto codice serve per abilitarlo?Un flag cache_control: {type: “ephemeral”} a livello di messaggio o turno. Il resto è gestito da Anthropic.

Posso usarlo con function calling?Sì, purché la firma delle funzioni resti invariata per tutta la sessione.

Cosa succede se supero i 5 minuti di default?Il blocco cached scade e il prefisso viene riscritto al primo utilizzo successivo; attiva l’opzione ttl: “3600s” se prevedi pause lunghe.

Il prompt caching automatico di Anthropic è già disponibile in tutte le regioni dove è attiva l’API di Claude 3.5 e 4.6. Per developer e CIO significa poter finalmente scalare agenti complessi senza il fantasma di una fattura esponenziale.

Menu

Archivi

Calendar

Categorie

Anthropic elimina il “costo fantasma” degli agenti AI: arriva il prompt caching automatico su Claude

Il problema nascosto: pagare 50 volte lo stesso prompt

La risposta di Anthropic: prompt caching in modalità automatica

Come funziona il caching automatico

Quanto si risparmia: numeri reali dal pricing ufficiale

Scenario pratico: 50 turni di agente

Regole d’oro per sfruttare il caching

Il caching diventa standard di settore

Governance prima di tutto

FAQ rapide

Lascia un commento Annulla risposta

Archivi

Calendar

Categorie

Archives

Categories

Menu

Archivi

Calendar

Categorie

Anthropic elimina il “costo fantasma” degli agenti AI: arriva il prompt caching automatico su Claude

Il problema nascosto: pagare 50 volte lo stesso prompt

La risposta di Anthropic: prompt caching in modalità automatica

Come funziona il caching automatico

Quanto si risparmia: numeri reali dal pricing ufficiale

Scenario pratico: 50 turni di agente

Regole d’oro per sfruttare il caching

Il caching diventa standard di settore

Governance prima di tutto

FAQ rapide

You may also like

Abusi sessuali sulla nipote minorenne: la Cassazione conferma la condanna a otto anni

Salerno, tunisino finisce al CPR di Bari: è lo scafista dell’imbarcazione intercettata il 18 marzo 2026

Salerno, stop all’acqua il 26 e 27 marzo 2026: strade e orari dei cantieri

Lascia un commento Annulla risposta

Archivi

Calendar

Categorie