O Gemini está entre as melhores relações custo-benefício da IA de ponta, e a Kunavo o oferece cerca de 70% abaixo do preço de lista do Google por trás de uma única API compatível com OpenAI. Este guia traz as tarifas atuais por modelo, exemplos de custo que você mesmo pode conferir e a forma mais barata de chamar o Gemini em produção.
Preços da API Gemini num relance
As tarifas são por 1M de tokens, em USD, conforme cobradas na Kunavo. A coluna “Lista do Google” é a tarifa publicada pelo Google para o mesmo modelo, mostrada para você ver a diferença.
| Modelo | Entrada / 1M | Saída / 1M | Lista do Google (entrada / saída) | Você economiza |
|---|---|---|---|---|
gemini-2-5-flash | $0.09 | $0.75 | $0.30 / $2.50 | ~70% |
gemini-2-5-pro | $0.375 | $3.00 | $1.25 / $10.00 | ~70% |
O Flash é o cavalo de batalha para alto volume; o Pro é para raciocínio mais difícil, visão e tarefas de contexto longo. As tarifas ao vivo sempre aparecem na página de preços e na página de cada modelo (gemini-2-5-flash, gemini-2-5-pro).
Como funciona o preço por token do Gemini
Você paga por tokens de entrada (tudo o que envia — prompt de sistema, contexto recuperado, a mensagem do usuário) e por tokens de saída (o que o modelo gera). A saída é o lado mais caro, então a maior alavanca sobre uma fatura de Gemini é quanto texto você deixa o modelo escrever. Imagens e áudio são convertidos em equivalentes em tokens e cobrados no mesmo medidor.
Exemplos de custo calculados
Números reais à tarifa do Gemini 2.5 Flash da Kunavo, exceto a última linha, que usa o Gemini 2.5 Pro:
| Carga de trabalho | Tokens (entrada / saída) | Modelo | Custo |
|---|---|---|---|
| Rodada de chatbot | 1.000 / 300 | Flash | $0.0003 |
| Resposta de RAG | 8.000 / 500 | Flash | $0.0011 |
| Classificação em lote (por documento) | 500 / 20 | Flash | $0.00006 |
| Análise de contexto longo | 20.000 / 2.000 | Pro | $0.0135 |
A essas tarifas, um lote de classificação de 100.000 documentos no Flash sai por cerca de $6, e um milhão de rodadas de chatbot por cerca de $315. A conta, pronta para rodar:
# Tarifas do Kunavo para o Gemini 2.5 Flash (USD por 1M de tokens)
IN_RATE, OUT_RATE = 0.09, 0.75
def custo(tokens_entrada: int, tokens_saida: int) -> float:
return tokens_entrada / 1_000_000 * IN_RATE + tokens_saida / 1_000_000 * OUT_RATE
print(custo(1_000, 300)) # uma rodada de chatbot -> $0.000315
print(custo(8_000, 500)) # uma resposta de RAG -> $0.001095
print(custo(500, 20) * 100_000) # lote de 100k documentos -> ~$6.00Preços da Kunavo e cobrança via Stripe
Não há assinatura nem projeto no Google Cloud. Você adiciona saldo a uma carteira (Stripe ou métodos de pagamento locais), e as chamadas debitam dele às tarifas por token acima. Pay-as-you-go a partir de um depósito mínimo de $5, o saldo nunca expira e depósitos maiores rendem crédito de bônus. Uma única carteira cobre o Gemini e todos os outros modelos — Claude, GPT, imagem, vídeo e áudio — então você não fica conciliando uma fatura separada por fornecedor.
Qual modelo Gemini eu devo escolher?
- gemini-2-5-flash — padrão para chat, extração, classificação, resumo e a maior parte de RAG. Rápido e a opção capaz mais barata.
- gemini-2-5-pro — recorra a ele quando o Flash não for preciso o bastante: raciocínio em várias etapas, código, visão e contexto muito longo.
Um bom padrão é rotear por dificuldade: Flash para o caso comum, subir para o Pro só quando uma verificação falhar. Veja o guia de otimização de custo de IA para o padrão de roteamento em código.
Como cortar a sua fatura de Gemini
- Baixe de faixa. Mande os 80% fáceis para o Flash; reserve o Pro para os 20% difíceis.
- Limite a saída. Defina
max_tokense sequências de parada — a saída é o lado caro do medidor. - Enxugue a entrada. Recupere menos trechos de RAG, mas melhores, em vez de enfiar toda a base de conhecimento no contexto.
- Agrupe em lote. Junte chamadas independentes para manter a latência baixa e evitar tempestades de retry.
FAQ
A API do Gemini é gratuita?
O Google AI Studio tem um nível gratuito com limites de taxa para prototipagem; produção é pago por token. A Kunavo é pay-as-you-go a partir de um depósito mínimo de $5 — você paga as tarifas por token acima, o saldo nunca expira e nenhuma conta de billing no Google Cloud é exigida.
Quanto custa o Gemini 2.5 Flash?
$0.09 por 1M de tokens de entrada e $0.75 por 1M de tokens de saída na Kunavo — cerca de 70% abaixo do preço de lista do Google, de $0.30 / $2.50. Uma rodada típica de chatbot custa por volta de $0.0003.
O Gemini é mais barato que o Claude ou o GPT?
O Gemini 2.5 Flash é um dos modelos capazes mais baratos que existem — abaixo do Claude Haiku e da maioria das faixas de GPT em cargas de alto volume. Compare a tabela completa na página de preços.
Como reduzir o custo da API do Gemini?
Use o Flash, limite a saída, enxugue o contexto recuperado e agrupe em lote. Detalhes no guia de otimização de custo. Para começar a chamar o Gemini, veja como obter uma chave de API Gemini.