Giá Gemini API 2026 — chi phí theo mô hình, ví dụ, và truy cập tương thích OpenAI rẻ hơn

Q: Gemini API có miễn phí không?

Google AI Studio có một bậc miễn phí giới hạn tốc độ, phù hợp để làm nguyên mẫu. Khi lên production bạn trả tiền theo token. Kunavo tính theo mức dùng đến đâu trả đến đó từ mức nạp tối thiểu $5 — bạn trả theo token với các mức giá bên dưới, số dư không bao giờ hết hạn, và không cần tài khoản thanh toán Google Cloud.

Q: Gemini 2.5 Flash giá bao nhiêu?

Trên Kunavo, Gemini 2.5 Flash có giá $0.09 cho mỗi 1 triệu token đầu vào và $0.75 cho mỗi 1 triệu token đầu ra — thấp hơn khoảng 70% so với giá niêm yết chính thức của Google là $0.30 / $2.50. Một lượt chatbot thông thường (1k vào, 300 ra) tốn khoảng $0.0003.

Q: Làm sao để giảm chi phí Gemini API?

Hạ bậc xuống gemini-2-5-flash cho các tác vụ đơn giản, giới hạn token đầu ra, gộp các yêu cầu độc lập theo lô, và tái sử dụng ngữ cảnh ổn định. Kết hợp các cách này thường cắt giảm hoá đơn Gemini hơn một nửa mà không mất chất lượng.

Gemini nằm trong nhóm đáng giá nhất của AI hàng đầu, và Kunavo định giá nó thấp hơn khoảng 70% so với giá niêm yết chính thức của Google sau một API tương thích OpenAI duy nhất. Hướng dẫn này cung cấp mức giá hiện tại theo từng mô hình, các ví dụ chi phí bạn có thể tự kiểm chứng, và cách rẻ nhất để gọi Gemini trong production.

Giá Gemini API trong nháy mắt

Mức giá tính trên mỗi 1 triệu token, bằng USD, đúng như được tính trên Kunavo. Cột “Giá niêm yết Google” là mức giá Google công bố cho cùng mô hình, hiển thị để bạn thấy chênh lệch.

Mô hình	Đầu vào / 1 triệu	Đầu ra / 1 triệu	Giá niêm yết Google (vào / ra)	Bạn tiết kiệm
`gemini-2-5-flash`	$0.09	$0.75	$0.30 / $2.50	~70%
`gemini-2-5-pro`	$0.375	$3.00	$1.25 / $10.00	~70%

Flash là “ngựa thồ” cho khối lượng lớn; Pro dành cho suy luận khó hơn, thị giác và các tác vụ ngữ cảnh dài. Mức giá trực tiếp luôn hiển thị trên trang giá và trang của từng mô hình (gemini-2-5-flash, gemini-2-5-pro).

Cách tính giá theo token của Gemini

Bạn trả cho token đầu vào (mọi thứ bạn gửi — prompt hệ thống, ngữ cảnh truy hồi, tin nhắn của người dùng) và token đầu ra (những gì mô hình tạo ra). Đầu ra là phía đắt hơn, nên đòn bẩy lớn nhất lên hoá đơn Gemini là bạn để mô hình viết ra bao nhiêu chữ. Hình ảnh và âm thanh được quy đổi thành token tương đương và tính trên cùng một đồng hồ đo.

Ví dụ chi phí tính sẵn

Con số thực tế theo mức giá Gemini 2.5 Flash của Kunavo, trừ dòng cuối dùng Gemini 2.5 Pro:

Khối lượng công việc	Token (vào / ra)	Mô hình	Chi phí
Lượt chatbot	1.000 / 300	Flash	$0.0003
Câu trả lời RAG	8.000 / 500	Flash	$0.0011
Phân loại theo lô (mỗi tài liệu)	500 / 20	Flash	$0.00006
Phân tích ngữ cảnh dài	20.000 / 2.000	Pro	$0.0135

Với các mức giá đó, một lô phân loại 100.000 tài liệu trên Flash tốn khoảng $6, và một triệu lượt chatbot khoảng $315. Phép tính, sẵn sàng chạy:

gemini_chi_phi.py

# Mức giá Kunavo cho Gemini 2.5 Flash (USD trên mỗi 1 triệu token)
IN_RATE, OUT_RATE = 0.09, 0.75

def chi_phi(token_vao: int, token_ra: int) -> float:
    return token_vao / 1_000_000 * IN_RATE + token_ra / 1_000_000 * OUT_RATE

print(chi_phi(1_000, 300))            # một lượt chatbot        -> $0.000315
print(chi_phi(8_000, 500))            # một câu trả lời RAG     -> $0.001095
print(chi_phi(500, 20) * 100_000)     # lô 100k tài liệu        -> ~$6.00

Giá Kunavo và thanh toán qua Stripe

Không có gói thuê bao và không có dự án Google Cloud. Bạn nạp số dư vào ví (Stripe hoặc các phương thức thanh toán nội địa), và mỗi lệnh gọi sẽ trừ vào đó theo mức giá theo token ở trên. Dùng đến đâu trả đến đó từ mức nạp tối thiểu $5, số dư không bao giờ hết hạn, và nạp nhiều hơn được cộng tín dụng thưởng. Một ví duy nhất bao trùm Gemini và mọi mô hình khác — Claude, GPT, hình ảnh, video và âm thanh — nên bạn không phải đối soát một hoá đơn riêng cho từng nhà cung cấp.

Tôi nên chọn mô hình Gemini nào?

gemini-2-5-flash — mặc định cho chat, trích xuất, phân loại, tóm tắt và phần lớn RAG. Nhanh và là lựa chọn đủ mạnh rẻ nhất.
gemini-2-5-pro — dùng đến khi Flash chưa đủ chính xác: suy luận nhiều bước, lập trình, thị giác và ngữ cảnh rất dài.

Một mẫu hình tốt là định tuyến theo độ khó: Flash cho trường hợp phổ biến, chỉ nâng lên Pro khi một bước kiểm tra thất bại. Xem hướng dẫn tối ưu chi phí AI để biết mẫu định tuyến trong mã.

Cách cắt giảm hoá đơn Gemini của bạn

Hạ bậc. Đẩy 80% phần dễ sang Flash; để dành Pro cho 20% phần khó.
Giới hạn đầu ra. Đặt max_tokens và stop sequence — đầu ra là phía đắt của đồng hồ đo.
Tinh gọn đầu vào. Truy hồi ít đoạn RAG hơn nhưng chất lượng hơn, thay vì nhồi cả kho tri thức vào ngữ cảnh.
Gộp lô. Gom các lệnh gọi độc lập để giữ độ trễ thấp và tránh bão retry.

FAQ

Gemini API có miễn phí không?

Google AI Studio có một bậc miễn phí giới hạn tốc độ để làm nguyên mẫu; production tính theo token. Kunavo tính theo mức dùng đến đâu trả đến đó từ mức nạp tối thiểu $5 — bạn trả các mức giá theo token ở trên, số dư không bao giờ hết hạn, và không cần tài khoản thanh toán Google Cloud.

Gemini 2.5 Flash giá bao nhiêu?

$0.09 cho mỗi 1 triệu token đầu vào và $0.75 cho mỗi 1 triệu token đầu ra trên Kunavo — thấp hơn khoảng 70% so với giá niêm yết $0.30 / $2.50 của Google. Một lượt chatbot thông thường tốn khoảng $0.0003.

Gemini có rẻ hơn Claude hay GPT không?

Gemini 2.5 Flash là một trong những mô hình đủ mạnh rẻ nhất ở bất kỳ đâu — thấp hơn Claude Haiku và phần lớn các bậc GPT cho khối lượng lớn. So sánh bảng đầy đủ trên trang giá.

Làm sao để giảm chi phí Gemini API?

Hạ bậc xuống Flash, giới hạn đầu ra, tinh gọn ngữ cảnh truy hồi, và gộp lô. Chi tiết trong hướng dẫn tối ưu chi phí. Để bắt đầu gọi Gemini, xem cách lấy Gemini API key.