Claude 4.5 e i risparmi del prompt caching: numeri reali in produzione

Anthropic ha rilasciato Claude 4.5 con prompt cache più efficiente. Per chi gestisce assistenti AI in produzione, il risparmio è notevole.

Anthropic ha rilasciato Claude 4.5 a settembre 2025, con miglioramenti importanti su prompt caching e tool use. Su un nostro cliente che gestisce un assistente AI per supporto interno (4.000 conversazioni/giorno), i numeri parlano da soli.

Cos'è il prompt caching

Da Anthropic API puoi marcare parti del prompt (system prompt, knowledge base) come cached. Sui prompt successivi, quelle parti non rientrano nei token di input — costo ridotto del 90% e latenza migliorata. Funziona se la stessa parte viene riusata entro 5 minuti.

Setup tipico

Per il nostro cliente:

System prompt (15k token): cached.
Knowledge base aziendale (40k token): cached.
Conversazione utente: non cached (cambia ogni turno).

Costi prima e dopo

Senza cache, ogni turno: 55k token di input × 4.000 conversazioni × 8 turni medi = 1.76 miliardi di token. Costo (Claude Sonnet 4.5): ~5.300 USD/mese.

Con cache: 55k token cached + 800 token nuovi × 4.000 × 8 = costo ridotto a ~620 USD/mese. Risparmio: ~88%.

Latenza

Time-to-first-token con cache: ~280 ms. Senza cache: ~1.4s. Per UX di chat real-time, sotto i 500 ms è la differenza tra "fluido" e "lento".

Quando NON cachare

Prompt che cambiano ad ogni request (system prompt dinamico per utente).
Volumi sotto 200 request/giorno: il setup non si ripaga.
Knowledge base molto piccola (sotto 1k token): il break-even non scatta.

Cosa abbiamo cambiato nei nostri prompt

Strutturiamo i prompt per massimizzare la cache: parte stabile in cima (cached), parte variabile alla fine. È un piccolo refactor che fa risparmiare migliaia di euro all'anno su sistemi a volume.