Costruire un assistente RAG in italiano per la tua PMI — guida pratica per startup e aziende italiane che vogliono mettere Claude in produzione su una base di conoscenza in italiano. Codice funzionante, costi mensili realistici, considerazioni GDPR e fatturazione elettronica.

Lo stack base

Embedding dei documenti con text-embedding-3-large
Ricerca vettoriale (pgvector / Pinecone / Qdrant)
Generazione della risposta con Claude Sonnet 4.6 + prompt caching
Fallback su Gemini 2.5 Flash per alta concorrenza / costi minimi

Codice essenziale

rispondere.py

from openai import OpenAI

client = OpenAI(
    api_key="sk-kunavo-...",
    base_url="https://api.kunavo.com/v1",
)

def rispondere(domanda: str, contesto: list[str]) -> str:
    """Risponde in italiano basandosi solo sul contesto recuperato dalla KB."""
    resp = client.chat.completions.create(
        model="claude-sonnet-4-6",
        messages=[
            {
                "role": "system",
                "content": [
                    {
                        "type": "text",
                        "text": (
                            "Sei un assistente che risponde in italiano formale "
                            "ma cordiale, basandoti esclusivamente sul contesto "
                            "fornito. Se la risposta non si trova nel contesto, "
                            "rispondi 'Non ho questa informazione' invece di "
                            "inventare. Cita sempre il documento di origine "
                            "quando possibile."
                        ),
                        "cache_control": {"type": "ephemeral"},
                    },
                ],
            },
            {
                "role": "user",
                "content": (
                    f"## Contesto\n{chr(10).join(contesto)}\n\n"
                    f"## Domanda\n{domanda}"
                ),
            },
        ],
        max_tokens=600,
    )
    return resp.choices[0].message.content

Costo per query con caching attivo: ~$0.004 (circa €0.004). Senza caching: ~$0.01. La differenza giustifica la configurazione corretta di cache_control sul system prompt stabile.

Tokens in italiano

L'italiano consuma circa 1.3-1.5x più token rispetto all'inglese per lo stesso contenuto (articoli, desinenze lunghe). Tienine conto nei budget: un contesto da 5K token in inglese diventa ~6.5K in italiano. Limita il contesto a 4K per mantenere i costi sotto controllo senza perdere qualità.

Anti-allucinazione — cosa funziona davvero

System prompt esplicito: "se la risposta non è nel contesto, dì 'Non ho questa informazione'". Claude rispetta questa istruzione in italiano in modo affidabile
Citare la fonte: chiedi al modello di restituire l'id del documento da cui ha tratto ogni affermazione. Se l'id è inventato, hai trovato un'allucinazione
Limitare l'output: max_tokens=400 riduce la tentazione di aggiungere contenuti inventati come riempitivo
Test avversari: prepara 50 domande del tuo dataset marcate come "non rispondibili con il contesto attuale". L'assistente deve rifiutare tutte

Costo mensile stimato

100 query/giorno: ~$11/mese (~€10) con caching
1.000 query/giorno: ~$110/mese (~€100)
10.000 query/giorno: ~$1.100/mese (~€1.000)

Confronto: un addetto al customer support italiano costa ~€2.500/mese per coprire ~100 ticket/giorno. Anche solo a 1.000 query/giorno, l'assistente AI fa il lavoro di 10 persone a circa il 4% del costo di un singolo addetto.

Pagamento e fatturazione

Carte: Visa, Mastercard, American Express, PostePay (via Visa)
Addebito SEPA: ideale per auto-ricarica ricorrente
Apple Pay / Google Pay

Tutti i prezzi sono in USD. Stripe converte in EUR al checkout. Per clienti B2B con partita IVA, fatturazione con reverse charge intracomunitario automatico via Stripe Tax. Fatturazione elettronica al SDI: al momento non emettiamo fatture elettroniche al SDI italiano. Le fatture Stripe in PDF sono accettate per la rendicontazione delle spese B2B in regime di reverse charge intracomunitario. Per clienti che necessitano obbligatoriamente di fatturazione elettronica italiana, contatta sales@kunavo.com per discutere opzioni di rivendita locale.

GDPR — punti critici per le PMI italiane

Pseudonimizzazione PII: rimuovi nomi propri, codici fiscali, IBAN, email e indirizzi dal prompt prima di inviarlo al modello
DPA / Art. 28 GDPR: disponibile su richiesta via sales@kunavo.com. Copre le clausole contrattuali tipo (CCT) per il trasferimento dati verso fornitori USA (Anthropic, OpenAI)
Informativa privacy aggiornata: menziona esplicitamente l'uso di AI di terze parti tramite Kunavo
Diritto all'oblio (Art. 17): assicurati che i tuoi log applicativi siano cancellabili. Non mettere prompt in archivi immutabili tipo blockchain

Roadmap pratica

Settimana 1: prototipo con 100 documenti, 10 query test
Settimana 2: integrazione con la KB completa, test con utenti interni
Settimana 3: tuning del system prompt con casi reali, valutazione qualità
Settimana 4: deploy graduale, monitoraggio costi su /app/usage

Pronto a partire? Registrazione gratuita, ricarica da $5 e paghi solo per ciò che usi (sufficiente per ~550 query di test). Documentazione completa: /docs/quickstart. Per domande in italiano, scrivi direttamente a contact@kunavo.com.

RAG in italiano per PMI — costruire un assistente con Claude in 4 settimane

Lo stack base

Codice essenziale

Tokens in italiano

Anti-allucinazione — cosa funziona davvero

Costo mensile stimato

Pagamento e fatturazione

GDPR — punti critici per le PMI italiane

Roadmap pratica

Related deep dives

Claude API in Italia — prezzo, SEPA, latenza da Milano, IVA e fatturazione

在中国稳定调用 Claude / GPT / Gemini — Kunavo 中国友好路由实测

用 Veo 3 為台灣品牌做短影片廣告（Sora 同端點待上線）— 5 分鐘完整教學

日本語 RAG チャットボットを Claude で構築 — 5,000 文書のナレッジベースを 30 行で