Gemini は最先端 AI のなかでもトップクラスのコストパフォーマンスを誇り、 Kunavo は 1 つの OpenAI 互換 API の背後で、これを Google's の定価より約 70% 安く 提供しています。このガイドでは、現在のモデル別料率、自分でも検算できる 試算例、そして本番で Gemini を最も安く呼び出す方法を解説します。
Gemini 料金の早見表
料率は 1M トークンあたり、USD、Kunavo で課金される金額です。 “Google 定価” 列は同じモデルに対する Google's の公表料金で、 差分が分かるように併記しています。
| モデル | 入力 / 1M | 出力 / 1M | Google 定価(入力 / 出力) | 節約率 |
|---|---|---|---|---|
gemini-2-5-flash | $0.09 | $0.75 | $0.30 / $2.50 | 約 70% |
gemini-2-5-pro | $0.375 | $3.00 | $1.25 / $10.00 | 約 70% |
Flash は大量処理向けの主力、Pro はより難しい推論・画像認識・長いコンテキストの ジョブ向けです。最新の料率は常に 料金ページ と各モデルページ(gemini-2-5-flash、 gemini-2-5-pro)に表示されます。
Gemini のトークン課金の仕組み
課金対象は 入力トークン(送信するすべて——システム プロンプト、取得したコンテキスト、ユーザーメッセージ)と 出力トークン(モデルが生成したもの)です。出力のほうが 高く付くため、Gemini の請求額を左右する最大のレバーは「モデルにどれだけ 書かせるか」です。画像や音声はトークン換算され、同じメーターで課金されます。
試算例
Kunavo's の Gemini 2.5 Flash 料率での実数です。最後の行のみ Gemini 2.5 Pro を使用しています。
| ワークロード | トークン(入力 / 出力) | モデル | コスト |
|---|---|---|---|
| チャットボット 1 ターン | 1,000 / 300 | Flash | $0.0003 |
| RAG の回答 | 8,000 / 500 | Flash | $0.0011 |
| バッチ分類(1 ドキュメントあたり) | 500 / 20 | Flash | $0.00006 |
| 長コンテキスト解析 | 20,000 / 2,000 | Pro | $0.0135 |
この料率なら、Flash での 10 万ドキュメントの分類バッチは約 $6、100 万回のチャットボット会話は約 $315 です。計算式はそのまま実行できます。
# Kunavo の Gemini 2.5 Flash 料率(1M トークンあたり、USD)
IN_RATE, OUT_RATE = 0.09, 0.75
def cost(in_tokens: int, out_tokens: int) -> float:
return in_tokens / 1_000_000 * IN_RATE + out_tokens / 1_000_000 * OUT_RATE
print(cost(1_000, 300)) # チャットボット 1 ターン -> $0.000315
print(cost(8_000, 500)) # RAG の回答 1 件 -> $0.001095
print(cost(500, 20) * 100_000) # 10 万件のバッチ処理 -> 約 $6.00Kunavo の料金と Stripe 決済
サブスクリプションも Google Cloud プロジェクトも不要です。残高をチャージ (Stripe またはローカルの決済手段)すると、呼び出しごとに上記のトークン 単価で残高から差し引かれます。最低 $5 のチャージから始める 従量課金で、残高は失効せず、まとまった金額のチャージにはボーナスクレジットが 付きます。1 つの残高で Gemini もそのほかのすべてのモデル——Claude、GPT、 画像、動画、音声——をカバーするため、プロバイダーごとに別々の請求書を 突き合わせる必要はありません。
どの Gemini モデルを選ぶべきか?
- gemini-2-5-flash — チャット、抽出、分類、要約、 そしてほとんどの RAG のデフォルト。高速で、最も安い高性能オプションです。
- gemini-2-5-pro — Flash では精度が足りないときに使います。 多段推論、コード、画像認識、非常に長いコンテキストなど。
難易度でルーティングするのが良いパターンです。よくあるケースは Flash で さばき、チェックに失敗したときだけ Pro にエスカレーションします。 コード付きのルーティングパターンは AI コスト最適化ガイド を参照してください。
Gemini の請求額を下げる
- ティアを下げる。 簡単な 80% は Flash に送り、Pro は 難しい 20% のために取っておきます。
- 出力を制限する。
max_tokensとストップ シーケンスを設定します——出力はメーターの高い側です。 - 入力を絞る。 ナレッジベース全体をコンテキストに 詰め込むのではなく、少数で良質な RAG チャンクを取得します。
- バッチ化する。 独立した呼び出しをまとめ、レイテンシを 抑えてリトライの嵐を避けます。
よくある質問
Gemini API は無料ですか?
Google AI Studio にはプロトタイピング向けのレート制限付き無料枠があり、 本番はトークン単位の従量課金です。Kunavo は最低 $5 のチャージから始める 従量課金で、上記のトークン単価で課金され、残高は失効せず、Google Cloud の 請求先アカウントも不要です。
Gemini 2.5 Flash の料金はいくらですか?
Kunavo では入力 1M トークンあたり $0.09、出力 1M トークンあたり $0.75 で、Google's の定価 $0.30 / $2.50 より約 70% 安くなっています。 一般的なチャットボットの 1 ターンで約 $0.0003 です。
Gemini は Claude や GPT より安いですか?
Gemini 2.5 Flash はどこと比べても最安クラスの高性能モデルです——大量処理 では Claude Haiku やほとんどの GPT ティアを下回ります。フル比較表は 料金ページ でご覧いただけます。
Gemini API のコストを下げるには?
Flash にティアを下げ、出力を制限し、取得するコンテキストを絞り、 バッチ化します。詳細は コスト最適化ガイドにあります。Gemini を呼び出し始めるには Gemini API キーの取得方法を参照してください。