Back to guides
料金·June 18, 2026·8 min read

Gemini API 料金【2026年版】— モデル別料率と試算例、最安の呼び出し方

Gemini の API 料金をモデル別の実数で。Kunavo は Google 定価より安く、最低 $5 のチャージから従量課金で呼び出せます。料率・試算例・コスト削減のレバーをすべて runnable なコード付きで掲載。

Gemini は最先端 AI のなかでもトップクラスのコストパフォーマンスを誇り、 Kunavo は 1 つの OpenAI 互換 API の背後で、これを Google's の定価より約 70% 安く 提供しています。このガイドでは、現在のモデル別料率、自分でも検算できる 試算例、そして本番で Gemini を最も安く呼び出す方法を解説します。

Gemini 料金の早見表

料率は 1M トークンあたり、USD、Kunavo で課金される金額です。 “Google 定価” 列は同じモデルに対する Google's の公表料金で、 差分が分かるように併記しています。

モデル入力 / 1M出力 / 1MGoogle 定価(入力 / 出力)節約率
gemini-2-5-flash$0.09$0.75$0.30 / $2.5070%
gemini-2-5-pro$0.375$3.00$1.25 / $10.0070%

Flash は大量処理向けの主力、Pro はより難しい推論・画像認識・長いコンテキストの ジョブ向けです。最新の料率は常に 料金ページ と各モデルページ(gemini-2-5-flash gemini-2-5-pro)に表示されます。

Gemini のトークン課金の仕組み

課金対象は 入力トークン(送信するすべて——システム プロンプト、取得したコンテキスト、ユーザーメッセージ)と 出力トークン(モデルが生成したもの)です。出力のほうが 高く付くため、Gemini の請求額を左右する最大のレバーは「モデルにどれだけ 書かせるか」です。画像や音声はトークン換算され、同じメーターで課金されます。

試算例

Kunavo's の Gemini 2.5 Flash 料率での実数です。最後の行のみ Gemini 2.5 Pro を使用しています。

ワークロードトークン(入力 / 出力)モデルコスト
チャットボット 1 ターン1,000 / 300Flash$0.0003
RAG の回答8,000 / 500Flash$0.0011
バッチ分類(1 ドキュメントあたり)500 / 20Flash$0.00006
長コンテキスト解析20,000 / 2,000Pro$0.0135

この料率なら、Flash での 10 万ドキュメントの分類バッチは約 $6、100 万回のチャットボット会話は約 $315 です。計算式はそのまま実行できます。

gemini_cost.py
# Kunavo の Gemini 2.5 Flash 料率(1M トークンあたり、USD)
IN_RATE, OUT_RATE = 0.09, 0.75

def cost(in_tokens: int, out_tokens: int) -> float:
    return in_tokens / 1_000_000 * IN_RATE + out_tokens / 1_000_000 * OUT_RATE

print(cost(1_000, 300))            # チャットボット 1 ターン -> $0.000315
print(cost(8_000, 500))            # RAG の回答 1 件        -> $0.001095
print(cost(500, 20) * 100_000)     # 10 万件のバッチ処理     -> 約 $6.00

Kunavo の料金と Stripe 決済

サブスクリプションも Google Cloud プロジェクトも不要です。残高をチャージ (Stripe またはローカルの決済手段)すると、呼び出しごとに上記のトークン 単価で残高から差し引かれます。最低 $5 のチャージから始める 従量課金で、残高は失効せず、まとまった金額のチャージにはボーナスクレジットが 付きます。1 つの残高で Gemini もそのほかのすべてのモデル——Claude、GPT、 画像、動画、音声——をカバーするため、プロバイダーごとに別々の請求書を 突き合わせる必要はありません。

どの Gemini モデルを選ぶべきか?

  • gemini-2-5-flash — チャット、抽出、分類、要約、 そしてほとんどの RAG のデフォルト。高速で、最も安い高性能オプションです。
  • gemini-2-5-pro — Flash では精度が足りないときに使います。 多段推論、コード、画像認識、非常に長いコンテキストなど。

難易度でルーティングするのが良いパターンです。よくあるケースは Flash で さばき、チェックに失敗したときだけ Pro にエスカレーションします。 コード付きのルーティングパターンは AI コスト最適化ガイド を参照してください。

Gemini の請求額を下げる

  1. ティアを下げる。 簡単な 80% は Flash に送り、Pro は 難しい 20% のために取っておきます。
  2. 出力を制限する。 max_tokens とストップ シーケンスを設定します——出力はメーターの高い側です。
  3. 入力を絞る。 ナレッジベース全体をコンテキストに 詰め込むのではなく、少数で良質な RAG チャンクを取得します。
  4. バッチ化する。 独立した呼び出しをまとめ、レイテンシを 抑えてリトライの嵐を避けます。

よくある質問

Gemini API は無料ですか?

Google AI Studio にはプロトタイピング向けのレート制限付き無料枠があり、 本番はトークン単位の従量課金です。Kunavo は最低 $5 のチャージから始める 従量課金で、上記のトークン単価で課金され、残高は失効せず、Google Cloud の 請求先アカウントも不要です。

Gemini 2.5 Flash の料金はいくらですか?

Kunavo では入力 1M トークンあたり $0.09、出力 1M トークンあたり $0.75 で、Google's の定価 $0.30 / $2.50 より約 70% 安くなっています。 一般的なチャットボットの 1 ターンで約 $0.0003 です。

Gemini は Claude や GPT より安いですか?

Gemini 2.5 Flash はどこと比べても最安クラスの高性能モデルです——大量処理 では Claude Haiku やほとんどの GPT ティアを下回ります。フル比較表は 料金ページ でご覧いただけます。

Gemini API のコストを下げるには?

Flash にティアを下げ、出力を制限し、取得するコンテキストを絞り、 バッチ化します。詳細は コスト最適化ガイドにあります。Gemini を呼び出し始めるには Gemini API キーの取得方法を参照してください。