Back to guides
Preços·June 18, 2026·8 min read

Preços da API Gemini 2026 — custos por modelo, exemplos e acesso compatível com OpenAI mais barato

O Gemini está entre as melhores relações custo-benefício da IA de ponta. Veja as tarifas atuais por modelo — cerca de 70% abaixo da lista do Google — com exemplos de custo e a forma mais barata de chamar o Gemini em produção.

O Gemini está entre as melhores relações custo-benefício da IA de ponta, e a Kunavo o oferece cerca de 70% abaixo do preço de lista do Google por trás de uma única API compatível com OpenAI. Este guia traz as tarifas atuais por modelo, exemplos de custo que você mesmo pode conferir e a forma mais barata de chamar o Gemini em produção.

Preços da API Gemini num relance

As tarifas são por 1M de tokens, em USD, conforme cobradas na Kunavo. A coluna “Lista do Google” é a tarifa publicada pelo Google para o mesmo modelo, mostrada para você ver a diferença.

ModeloEntrada / 1MSaída / 1MLista do Google (entrada / saída)Você economiza
gemini-2-5-flash$0.09$0.75$0.30 / $2.50~70%
gemini-2-5-pro$0.375$3.00$1.25 / $10.00~70%

O Flash é o cavalo de batalha para alto volume; o Pro é para raciocínio mais difícil, visão e tarefas de contexto longo. As tarifas ao vivo sempre aparecem na página de preços e na página de cada modelo (gemini-2-5-flash, gemini-2-5-pro).

Como funciona o preço por token do Gemini

Você paga por tokens de entrada (tudo o que envia — prompt de sistema, contexto recuperado, a mensagem do usuário) e por tokens de saída (o que o modelo gera). A saída é o lado mais caro, então a maior alavanca sobre uma fatura de Gemini é quanto texto você deixa o modelo escrever. Imagens e áudio são convertidos em equivalentes em tokens e cobrados no mesmo medidor.

Exemplos de custo calculados

Números reais à tarifa do Gemini 2.5 Flash da Kunavo, exceto a última linha, que usa o Gemini 2.5 Pro:

Carga de trabalhoTokens (entrada / saída)ModeloCusto
Rodada de chatbot1.000 / 300Flash$0.0003
Resposta de RAG8.000 / 500Flash$0.0011
Classificação em lote (por documento)500 / 20Flash$0.00006
Análise de contexto longo20.000 / 2.000Pro$0.0135

A essas tarifas, um lote de classificação de 100.000 documentos no Flash sai por cerca de $6, e um milhão de rodadas de chatbot por cerca de $315. A conta, pronta para rodar:

gemini_custo.py
# Tarifas do Kunavo para o Gemini 2.5 Flash (USD por 1M de tokens)
IN_RATE, OUT_RATE = 0.09, 0.75

def custo(tokens_entrada: int, tokens_saida: int) -> float:
    return tokens_entrada / 1_000_000 * IN_RATE + tokens_saida / 1_000_000 * OUT_RATE

print(custo(1_000, 300))            # uma rodada de chatbot   -> $0.000315
print(custo(8_000, 500))            # uma resposta de RAG     -> $0.001095
print(custo(500, 20) * 100_000)     # lote de 100k documentos -> ~$6.00

Preços da Kunavo e cobrança via Stripe

Não há assinatura nem projeto no Google Cloud. Você adiciona saldo a uma carteira (Stripe ou métodos de pagamento locais), e as chamadas debitam dele às tarifas por token acima. Pay-as-you-go a partir de um depósito mínimo de $5, o saldo nunca expira e depósitos maiores rendem crédito de bônus. Uma única carteira cobre o Gemini e todos os outros modelos — Claude, GPT, imagem, vídeo e áudio — então você não fica conciliando uma fatura separada por fornecedor.

Qual modelo Gemini eu devo escolher?

  • gemini-2-5-flash — padrão para chat, extração, classificação, resumo e a maior parte de RAG. Rápido e a opção capaz mais barata.
  • gemini-2-5-pro — recorra a ele quando o Flash não for preciso o bastante: raciocínio em várias etapas, código, visão e contexto muito longo.

Um bom padrão é rotear por dificuldade: Flash para o caso comum, subir para o Pro só quando uma verificação falhar. Veja o guia de otimização de custo de IA para o padrão de roteamento em código.

Como cortar a sua fatura de Gemini

  1. Baixe de faixa. Mande os 80% fáceis para o Flash; reserve o Pro para os 20% difíceis.
  2. Limite a saída. Defina max_tokens e sequências de parada — a saída é o lado caro do medidor.
  3. Enxugue a entrada. Recupere menos trechos de RAG, mas melhores, em vez de enfiar toda a base de conhecimento no contexto.
  4. Agrupe em lote. Junte chamadas independentes para manter a latência baixa e evitar tempestades de retry.

FAQ

A API do Gemini é gratuita?

O Google AI Studio tem um nível gratuito com limites de taxa para prototipagem; produção é pago por token. A Kunavo é pay-as-you-go a partir de um depósito mínimo de $5 — você paga as tarifas por token acima, o saldo nunca expira e nenhuma conta de billing no Google Cloud é exigida.

Quanto custa o Gemini 2.5 Flash?

$0.09 por 1M de tokens de entrada e $0.75 por 1M de tokens de saída na Kunavo — cerca de 70% abaixo do preço de lista do Google, de $0.30 / $2.50. Uma rodada típica de chatbot custa por volta de $0.0003.

O Gemini é mais barato que o Claude ou o GPT?

O Gemini 2.5 Flash é um dos modelos capazes mais baratos que existem — abaixo do Claude Haiku e da maioria das faixas de GPT em cargas de alto volume. Compare a tabela completa na página de preços.

Como reduzir o custo da API do Gemini?

Use o Flash, limite a saída, enxugue o contexto recuperado e agrupe em lote. Detalhes no guia de otimização de custo. Para começar a chamar o Gemini, veja como obter uma chave de API Gemini.