返回博客
Guida·2026年5月25日·7 min read

RAG in italiano per PMI — costruire un assistente con Claude in 4 settimane

Guida pratica per startup e PMI italiane: stack RAG completo in italiano con Claude Sonnet 4.6, ~€0.006 per query, considerazioni su token italiani (1.3-1.5x più dell'inglese), anti-allucinazione, costi mensili reali da 100 a 10.000 query/giorno, GDPR e nota sulla fatturazione elettronica al SDI.

Costruire un assistente RAG in italiano per la tua PMI — guida pratica per startup e aziende italiane che vogliono mettere Claude in produzione su una base di conoscenza in italiano. Codice funzionante, costi mensili realistici, considerazioni GDPR e fatturazione elettronica.

Lo stack base

  1. Embedding dei documenti con text-embedding-3-large
  2. Ricerca vettoriale (pgvector / Pinecone / Qdrant)
  3. Generazione della risposta con Claude Sonnet 4.6 + prompt caching
  4. Fallback su Gemini 3 Flash per alta concorrenza / costi minimi

Codice essenziale

rispondere.py
from openai import OpenAI

client = OpenAI(
    api_key="sk-kunavo-...",
    base_url="https://api.kunavo.com/v1",
)

def rispondere(domanda: str, contesto: list[str]) -> str:
    """Risponde in italiano basandosi solo sul contesto recuperato dalla KB."""
    resp = client.chat.completions.create(
        model="claude-sonnet-4-6",
        messages=[
            {
                "role": "system",
                "content": [
                    {
                        "type": "text",
                        "text": (
                            "Sei un assistente che risponde in italiano formale "
                            "ma cordiale, basandoti esclusivamente sul contesto "
                            "fornito. Se la risposta non si trova nel contesto, "
                            "rispondi 'Non ho questa informazione' invece di "
                            "inventare. Cita sempre il documento di origine "
                            "quando possibile."
                        ),
                        "cache_control": {"type": "ephemeral"},
                    },
                ],
            },
            {
                "role": "user",
                "content": (
                    f"## Contesto\n{chr(10).join(contesto)}\n\n"
                    f"## Domanda\n{domanda}"
                ),
            },
        ],
        max_tokens=600,
    )
    return resp.choices[0].message.content

Costo per query con caching attivo: ~$0.007 (circa €0.006). Senza caching: ~$0.02. La differenza giustifica la configurazione corretta di cache_control sul system prompt stabile.

Tokens in italiano

L'italiano consuma circa 1.3-1.5x più token rispetto all'inglese per lo stesso contenuto (articoli, desinenze lunghe). Tienine conto nei budget: un contesto da 5K token in inglese diventa ~6.5K in italiano. Limita il contesto a 4K per mantenere i costi sotto controllo senza perdere qualità.

Anti-allucinazione — cosa funziona davvero

  • System prompt esplicito: "se la risposta non è nel contesto, dì 'Non ho questa informazione'". Claude rispetta questa istruzione in italiano in modo affidabile
  • Citare la fonte: chiedi al modello di restituire l'id del documento da cui ha tratto ogni affermazione. Se l'id è inventato, hai trovato un'allucinazione
  • Limitare l'output: max_tokens=400 riduce la tentazione di aggiungere contenuti inventati come riempitivo
  • Test avversari: prepara 50 domande del tuo dataset marcate come "non rispondibili con il contesto attuale". L'assistente deve rifiutare tutte

Costo mensile stimato

  • 100 query/giorno: ~$21/mese (~€19) con caching
  • 1.000 query/giorno: ~$210/mese (~€195)
  • 10.000 query/giorno: ~$2.100/mese (~€1.950)

Confronto: un addetto al customer support italiano costa ~€2.500/mese per coprire ~100 ticket/giorno. Anche solo a 1.000 query/giorno, l'assistente AI fa il lavoro di 10 persone a un decimo del costo.

Pagamento e fatturazione

  • Carte: Visa, Mastercard, American Express, PostePay (via Visa)
  • Addebito SEPA: ideale per auto-ricarica ricorrente
  • Apple Pay / Google Pay

Tutti i prezzi sono in USD. Stripe converte in EUR al checkout. Per clienti B2B con partita IVA, fatturazione con reverse charge intracomunitario automatico via Stripe Tax. Fatturazione elettronica al SDI: al momento non emettiamo fatture elettroniche al SDI italiano. Le fatture Stripe in PDF sono accettate per la rendicontazione delle spese B2B in regime di reverse charge intracomunitario. Per clienti che necessitano obbligatoriamente di fatturazione elettronica italiana, contatta sales@kunavo.com per discutere opzioni di rivendita locale.

GDPR — punti critici per le PMI italiane

  • Pseudonimizzazione PII: rimuovi nomi propri, codici fiscali, IBAN, email e indirizzi dal prompt prima di inviarlo al modello
  • DPA / Art. 28 GDPR: disponibile su richiesta via sales@kunavo.com. Copre le clausole contrattuali tipo (CCT) per il trasferimento dati verso fornitori USA (Anthropic, OpenAI)
  • Informativa privacy aggiornata: menziona esplicitamente l'uso di AI di terze parti tramite Kunavo
  • Diritto all'oblio (Art. 17): assicurati che i tuoi log applicativi siano cancellabili. Non mettere prompt in archivi immutabili tipo blockchain

Roadmap pratica

  • Settimana 1: prototipo con 100 documenti, 10 query test
  • Settimana 2: integrazione con la KB completa, test con utenti interni
  • Settimana 3: tuning del system prompt con casi reali, valutazione qualità
  • Settimana 4: deploy graduale, monitoraggio costi su /app/usage

Pronto a partire? Registrazione gratuitacon $2 di credito (sufficiente per 250 query di test). Documentazione completa: /docs/quickstart. Per domande in italiano, scrivi direttamente a contact@kunavo.com.