Gemini API Preise 2026 — Tarife pro Modell, rund 70% unter Googles Liste

Q: Wie viel kostet Gemini 2.5 Flash?

Bei Kunavo kostet Gemini 2.5 Flash $0.09 pro 1M Input-Tokens und $0.75 pro 1M Output-Tokens — rund 70% unter Googles Listenpreis von $0.30 / $2.50. Ein typischer Chatbot-Turn (1K Input, 300 Output) kostet etwa $0.0003.

Q: Wie senke ich die Kosten der Gemini API?

Stufen Sie für einfache Aufgaben auf gemini-2-5-flash herunter, begrenzen Sie die Output-Tokens, bündeln Sie unabhängige Anfragen im Batch und nutzen Sie stabilen Kontext wieder. Kombiniert halbieren diese Maßnahmen eine Gemini-Rechnung meist um mehr als die Hälfte, ohne Qualitätsverlust.

Gemini gehört zum besten Preis-Leistungs-Verhältnis in der Spitzen-KI, und Kunavo bietet es rund 70% unter Googles Listenpreis hinter einer einzigen OpenAI-kompatiblen API an. Dieser Leitfaden zu den Gemini API Preisen nennt die aktuellen Tarife pro Modell, liefert nachrechenbare Kostenbeispiele und zeigt den günstigsten Weg, Gemini in Produktion aufzurufen.

Gemini Preise auf einen Blick

Die Tarife gelten pro 1M Tokens in USD, so wie sie bei Kunavo abgerechnet werden. Die Spalte “Google-Liste” ist Googles veröffentlichter Tarif für dasselbe Modell und wird gezeigt, damit Sie die Differenz sehen.

Modell	Input / 1M	Output / 1M	Google-Liste (Input / Output)	Sie sparen
`gemini-2-5-flash`	$0.09	$0.75	$0.30 / $2.50	~70%
`gemini-2-5-pro`	$0.375	$3.00	$1.25 / $10.00	~70%

Flash ist das Arbeitstier für große Volumina; Pro ist für schwierigeres Reasoning, Vision und Aufgaben mit langem Kontext. Die Live-Tarife stehen stets auf der Preisseite und auf der jeweiligen Modellseite (gemini-2-5-flash, gemini-2-5-pro).

Wie das Token-Pricing von Gemini funktioniert

Sie zahlen für Input-Tokens (alles, was Sie senden — System-Prompt, abgerufener Kontext, die Nutzernachricht) und für Output-Tokens (was das Modell erzeugt). Der Output ist die teurere Seite, deshalb ist der größte Hebel auf einer Gemini-Rechnung, wie viel Text Sie das Modell schreiben lassen. Bilder und Audio werden in Token-Äquivalente umgerechnet und auf demselben Zähler abgerechnet.

Durchgerechnete Kostenbeispiele

Echte Zahlen zum Gemini-2.5-Flash-Tarif von Kunavo, außer der letzten Zeile, die Gemini 2.5 Pro verwendet:

Workload	Tokens (Input / Output)	Modell	Kosten
Chatbot-Turn	1.000 / 300	Flash	$0.0003
RAG-Antwort	8.000 / 500	Flash	$0.0011
Batch-Klassifikation (pro Dokument)	500 / 20	Flash	$0.00006
Analyse mit langem Kontext	20.000 / 2.000	Pro	$0.0135

Zu diesen Tarifen kostet ein Klassifikations-Batch über 100.000 Dokumente auf Flash etwa $6 und eine Million Chatbot-Turns etwa $315. Die Rechnung, lauffähig:

gemini_kosten.py

# Kunavo-Tarife für Gemini 2.5 Flash (USD pro 1M Tokens)
IN_RATE, OUT_RATE = 0.09, 0.75

def kosten(in_tokens: int, out_tokens: int) -> float:
    return in_tokens / 1_000_000 * IN_RATE + out_tokens / 1_000_000 * OUT_RATE

print(kosten(1_000, 300))            # ein Chatbot-Turn      -> $0.000315
print(kosten(8_000, 500))            # eine RAG-Antwort       -> $0.001095
print(kosten(500, 20) * 100_000)     # Batch mit 100k Docs    -> ~$6.00

Kunavo-Preise und Abrechnung über Stripe

Es gibt kein Abo und kein Google-Cloud-Projekt. Sie laden ein Guthaben auf (Stripe oder lokale Zahlungsmethoden), und Aufrufe werden zu den obigen Token-Tarifen davon abgezogen. Pay-as-you-go ab einer Mindestaufladung von $5, das Guthaben verfällt nie und größere Aufladungen bringen Bonusguthaben. Ein Guthaben deckt Gemini und jedes andere Modell ab — Claude, GPT, Bild, Video und Audio — sodass Sie nicht pro Anbieter eine separate Rechnung abgleichen müssen.

Welches Gemini-Modell sollte ich wählen?

gemini-2-5-flash — Standard für Chat, Extraktion, Klassifikation, Zusammenfassung und den Großteil von RAG. Schnell und die günstigste leistungsfähige Option.
gemini-2-5-pro — greifen Sie dazu, wenn Flash nicht genau genug ist: mehrstufiges Reasoning, Code, Vision und sehr langer Kontext.

Ein gutes Muster ist das Routing nach Schwierigkeit: Flash für den Normalfall, nur bei einer fehlgeschlagenen Prüfung auf Pro hochstufen. Den Routing-Ansatz im Code zeigt der Leitfaden zur KI-Kostenoptimierung.

So senken Sie Ihre Gemini-Rechnung

Herunterstufen. Schicken Sie die einfachen 80% an Flash; reservieren Sie Pro für die schweren 20%.
Output begrenzen. Setzen Sie max_tokens und Stopp-Sequenzen — der Output ist die teure Seite des Zählers.
Input verschlanken. Rufen Sie weniger, dafür bessere RAG-Chunks ab, statt die gesamte Wissensbasis in den Kontext zu stopfen.
Batchen. Bündeln Sie unabhängige Aufrufe, um die Latenz niedrig zu halten und Retry-Stürme zu vermeiden.

FAQ

Ist die Gemini API kostenlos?

Google AI Studio bietet einen ratenlimitierten Free-Tier zum Prototyping; in Produktion wird pro Token gezahlt. Kunavo ist Pay-as-you-go ab einer Mindestaufladung von $5 — Sie zahlen die obigen Token-Tarife, das Guthaben verfällt nie und es ist kein Google-Cloud-Abrechnungskonto erforderlich.

Wie viel kostet Gemini 2.5 Flash?

$0.09 pro 1M Input-Tokens und $0.75 pro 1M Output-Tokens bei Kunavo — rund 70% unter Googles Listenpreis von $0.30 / $2.50. Ein typischer Chatbot-Turn kostet etwa $0.0003.

Ist Gemini günstiger als Claude oder GPT?

Gemini 2.5 Flash gehört zu den günstigsten leistungsfähigen Modellen überhaupt — unter Claude Haiku und den meisten GPT-Stufen bei großen Volumina. Vergleichen Sie die vollständige Tabelle auf der Preisseite.

Wie senke ich die Kosten der Gemini API?

Auf Flash herunterstufen, Output begrenzen, abgerufenen Kontext verschlanken und batchen. Details im Leitfaden zur Kostenoptimierung. Um mit dem Aufruf von Gemini zu beginnen, lesen Sie, wie Sie einen Gemini API Key erstellen.