Google menerapkan karakteristik dalam API Gemini bahwa perusahaan menyatakan bahwa model terbaru yang lebih murah untuk pengembang pihak ketiga.
Google menyebut karakteristik “penyimpanan dalam cache implisit” dan mengatakan bahwa ia dapat memberikan penghematan 75% dalam “konteks berulang” yang diteruskan ke model melalui Gemini API. Mengakui model Gemini 2.5 Pro dan 2.5 Google Flash.
Kemungkinan itu adalah kabar baik bagi pengembang sebagai biaya menggunakan model perbatasan Melanjutkan ke tumbuh.
Penyimpanan cache, praktik yang diadopsi secara luas dalam industri AI, menggunakan kembali data dan mengakses data yang sering atau telah ditetapkan sebelumnya untuk mengurangi persyaratan dan biaya komputer. Misalnya, cache dapat menyimpan jawaban atas pertanyaan yang sering dilakukan pengguna dari model, menghilangkan kebutuhan model untuk menciptakan kembali jawaban atas permintaan yang sama.
Google sebelumnya menawarkan penyimpanan dalam cache model, tetapi hanya eksplisit Penyimpanan cache cepat, yang berarti bahwa pengembang harus menentukan indikasi frekuensi mereka. Meskipun penghematan biaya seharusnya dijamin, penyimpanan cache cepat eksplisit umumnya melibatkan banyak pekerjaan manual.
Beberapa pengembang tidak puas dengan cara implementasi penyimpanan eksplisit di Google Cache bekerja untuk Gemini 2.5 Pro, yang mengatakan itu dapat menyebabkan faktur API yang secara mengejutkan besar. Keluhan mencapai titik tinggi minggu lalu, menghasut tim Gemini untuk meminta maaf Dan itu berkompromi untuk membuat perubahan.
Tidak seperti penyimpanan cache eksplisit, penyimpanan cache implisit otomatis. Diaktifkan secara default untuk model Gemini 2.5, lulus penghematan biaya jika aplikasi API Gemini ke model mengenai cache.
Acara TechCrunch
Berkeley, CA.
|
5 Juni
“[W]Ketika Anda mengirim permintaan ke salah satu model Gemini 2.5, jika aplikasi berbagi awalan umum sebagai salah satu aplikasi sebelumnya, maka memenuhi syarat untuk kudeta cache, “Google menjelaskan dalam a Blog. “Kami akan memiliki penghematan biaya secara dinamis.”
Jumlah token minimum segera untuk penyimpanan cache implisit adalah 1.024 untuk 2,5 flash dan 2.048 untuk 2,5 Pro, Menurut dokumentasi pengembang GoogleItu bukan jumlah yang sangat besar, yang berarti tidak perlu banyak untuk mengaktifkan penghematan otomatis ini. Token adalah bit model data yang tidak diproses dengan mana mereka bekerja, dengan seribu token setara dengan sekitar 750 kata.
Karena pernyataan terbaru Google untuk penghematan biaya penyimpanan dalam cache telah menjadi konflik, ada beberapa area pembeli-benefware dalam fitur baru ini. Di satu sisi, Google merekomendasikan agar pengembang mempertahankan konteks berulang di awal aplikasi untuk meningkatkan kemungkinan keberhasilan cache implisit. Konteks yang dapat mengubah permintaan Anda atas permintaan harus ditambahkan ke akhir, kata perusahaan.
Untuk yang lain, Google tidak menawarkan verifikasi pihak ketiga bahwa sistem penyimpanan cache implisit baru akan memberikan penghematan otomatis yang dijanjikan. Jadi kita harus melihat apa yang dikatakan pengguna pertama.