11/5/2025 (TinAI.vn) – Google tiên phong trong việc lưu trữ đệm ngữ cảnh vào tháng 5 năm 2024, giúp các nhà phát triển tiết kiệm 75% ngữ cảnh lặp lại được truyền đến các mô hình của Google bằng bộ nhớ đệm rõ ràng . Hôm nay, Google đang triển khai tính năng được yêu cầu cao trong API Gemini: bộ nhớ đệm ngầm .
Bộ nhớ đệm ngầm với API Gemini
Bộ nhớ đệm ngầm trực tiếp chuyển khoản tiết kiệm chi phí bộ nhớ đệm cho các nhà phát triển mà không cần phải tạo bộ nhớ đệm rõ ràng. Bây giờ, khi bạn gửi yêu cầu đến một trong các mô hình Gemini 2.5, nếu yêu cầu chia sẻ tiền tố chung với một trong các yêu cầu trước đó, thì nó đủ điều kiện để được cache hit. Google sẽ chuyển khoản tiết kiệm chi phí trở lại cho bạn một cách động, cung cấp mức giảm giá mã thông báo 75% tương tự.
Để tăng khả năng yêu cầu của bạn chứa một lần truy cập bộ nhớ đệm, bạn nên giữ nguyên nội dung ở đầu yêu cầu và thêm những thứ như câu hỏi của người dùng hoặc ngữ cảnh bổ sung khác có thể thay đổi từ yêu cầu này sang yêu cầu khác ở cuối lời nhắc. Bạn có thể đọc thêm các thông lệ tốt nhất về việc sử dụng bộ nhớ đệm ngầm trong tài liệu API Gemini .
Để có nhiều yêu cầu đủ điều kiện để được lưu vào bộ nhớ đệm hơn, Google đã giảm kích thước yêu cầu tối thiểu đối với 2.5 Flash xuống còn 1024 mã thông báo và 2.5 Pro xuống còn 2048 mã thông báo.
Hiểu về chiết khấu token với Gemini 2.5
Trong trường hợp bạn muốn đảm bảo tiết kiệm chi phí, bạn vẫn có thể sử dụng API lưu trữ đệm rõ ràng của Google, hỗ trợ các mô hình Gemini 2.5 và 2.0 của Google. Nếu bạn đang sử dụng các mô hình Gemini 2.5 ngay bây giờ, bạn sẽ bắt đầu thấy cached_content_token_count
trong siêu dữ liệu sử dụng cho biết có bao nhiêu mã thông báo trong yêu cầu đã được lưu trữ đệm và do đó sẽ được tính phí ở mức giá thấp hơn .