Preços da API Gemini 2026 — custos por modelo, exemplos e acesso compatível com OpenAI mais barato

Q: Quanto custa o Gemini 2.5 Flash?

Na Kunavo, o Gemini 2.5 Flash custa $0.09 por 1M de tokens de entrada e $0.75 por 1M de tokens de saída — cerca de 70% abaixo do preço de lista do Google, de $0.30 / $2.50. Uma rodada típica de chatbot (1K de entrada, 300 de saída) custa por volta de $0.0003.

Q: O Gemini é mais barato que o Claude ou o GPT?

O Gemini 2.5 Flash é um dos modelos capazes mais baratos disponíveis — bem abaixo do Claude Haiku e da maioria das faixas de GPT em cargas de alto volume. O Gemini 2.5 Pro fica entre o Claude Haiku e o Sonnet em custo, oferecendo uma janela de contexto muito grande.

Q: Como reduzir o custo da API do Gemini?

Use o gemini-2-5-flash para tarefas simples, limite os tokens de saída, agrupe requisições independentes em lote e reaproveite contexto estável. Combinar essas práticas costuma cortar uma fatura de Gemini em mais da metade, sem perda de qualidade.

O Gemini está entre as melhores relações custo-benefício da IA de ponta, e a Kunavo o oferece cerca de 70% abaixo do preço de lista do Google por trás de uma única API compatível com OpenAI. Este guia traz as tarifas atuais por modelo, exemplos de custo que você mesmo pode conferir e a forma mais barata de chamar o Gemini em produção.

Preços da API Gemini num relance

As tarifas são por 1M de tokens, em USD, conforme cobradas na Kunavo. A coluna “Lista do Google” é a tarifa publicada pelo Google para o mesmo modelo, mostrada para você ver a diferença.

Modelo	Entrada / 1M	Saída / 1M	Lista do Google (entrada / saída)	Você economiza
`gemini-2-5-flash`	$0.09	$0.75	$0.30 / $2.50	~70%
`gemini-2-5-pro`	$0.375	$3.00	$1.25 / $10.00	~70%

O Flash é o cavalo de batalha para alto volume; o Pro é para raciocínio mais difícil, visão e tarefas de contexto longo. As tarifas ao vivo sempre aparecem na página de preços e na página de cada modelo (gemini-2-5-flash, gemini-2-5-pro).

Como funciona o preço por token do Gemini

Você paga por tokens de entrada (tudo o que envia — prompt de sistema, contexto recuperado, a mensagem do usuário) e por tokens de saída (o que o modelo gera). A saída é o lado mais caro, então a maior alavanca sobre uma fatura de Gemini é quanto texto você deixa o modelo escrever. Imagens e áudio são convertidos em equivalentes em tokens e cobrados no mesmo medidor.

Exemplos de custo calculados

Números reais à tarifa do Gemini 2.5 Flash da Kunavo, exceto a última linha, que usa o Gemini 2.5 Pro:

Carga de trabalho	Tokens (entrada / saída)	Modelo	Custo
Rodada de chatbot	1.000 / 300	Flash	$0.0003
Resposta de RAG	8.000 / 500	Flash	$0.0011
Classificação em lote (por documento)	500 / 20	Flash	$0.00006
Análise de contexto longo	20.000 / 2.000	Pro	$0.0135

A essas tarifas, um lote de classificação de 100.000 documentos no Flash sai por cerca de $6, e um milhão de rodadas de chatbot por cerca de $315. A conta, pronta para rodar:

gemini_custo.py

# Tarifas do Kunavo para o Gemini 2.5 Flash (USD por 1M de tokens)
IN_RATE, OUT_RATE = 0.09, 0.75

def custo(tokens_entrada: int, tokens_saida: int) -> float:
    return tokens_entrada / 1_000_000 * IN_RATE + tokens_saida / 1_000_000 * OUT_RATE

print(custo(1_000, 300))            # uma rodada de chatbot   -> $0.000315
print(custo(8_000, 500))            # uma resposta de RAG     -> $0.001095
print(custo(500, 20) * 100_000)     # lote de 100k documentos -> ~$6.00

Preços da Kunavo e cobrança via Stripe

Não há assinatura nem projeto no Google Cloud. Você adiciona saldo a uma carteira (Stripe ou métodos de pagamento locais), e as chamadas debitam dele às tarifas por token acima. Pay-as-you-go a partir de um depósito mínimo de $5, o saldo nunca expira e depósitos maiores rendem crédito de bônus. Uma única carteira cobre o Gemini e todos os outros modelos — Claude, GPT, imagem, vídeo e áudio — então você não fica conciliando uma fatura separada por fornecedor.

Qual modelo Gemini eu devo escolher?

gemini-2-5-flash — padrão para chat, extração, classificação, resumo e a maior parte de RAG. Rápido e a opção capaz mais barata.
gemini-2-5-pro — recorra a ele quando o Flash não for preciso o bastante: raciocínio em várias etapas, código, visão e contexto muito longo.

Um bom padrão é rotear por dificuldade: Flash para o caso comum, subir para o Pro só quando uma verificação falhar. Veja o guia de otimização de custo de IA para o padrão de roteamento em código.

Como cortar a sua fatura de Gemini

Baixe de faixa. Mande os 80% fáceis para o Flash; reserve o Pro para os 20% difíceis.
Limite a saída. Defina max_tokens e sequências de parada — a saída é o lado caro do medidor.
Enxugue a entrada. Recupere menos trechos de RAG, mas melhores, em vez de enfiar toda a base de conhecimento no contexto.
Agrupe em lote. Junte chamadas independentes para manter a latência baixa e evitar tempestades de retry.

FAQ

A API do Gemini é gratuita?

O Google AI Studio tem um nível gratuito com limites de taxa para prototipagem; produção é pago por token. A Kunavo é pay-as-you-go a partir de um depósito mínimo de $5 — você paga as tarifas por token acima, o saldo nunca expira e nenhuma conta de billing no Google Cloud é exigida.

Quanto custa o Gemini 2.5 Flash?

$0.09 por 1M de tokens de entrada e $0.75 por 1M de tokens de saída na Kunavo — cerca de 70% abaixo do preço de lista do Google, de $0.30 / $2.50. Uma rodada típica de chatbot custa por volta de $0.0003.

O Gemini é mais barato que o Claude ou o GPT?

O Gemini 2.5 Flash é um dos modelos capazes mais baratos que existem — abaixo do Claude Haiku e da maioria das faixas de GPT em cargas de alto volume. Compare a tabela completa na página de preços.

Como reduzir o custo da API do Gemini?

Use o Flash, limite a saída, enxugue o contexto recuperado e agrupe em lote. Detalhes no guia de otimização de custo. Para começar a chamar o Gemini, veja como obter uma chave de API Gemini.