Mempercepat AI Lokal dengan Speculative Decoding

Catatan Cak AT

Bayangkan sebuah dunia di mana Google, dengan segala kekuatan dan kekayaannya, ternyata diam-diam memakai jurus ninja yang disebut speculative decoding. Publik? Ya, seperti biasa: sibuk ngoprek HP atau cari promo gratis ongkir, tanpa tahu bahwa yang dicari di Google sebenarnya diproses lewat jurus kilat nan canggih ini.

Jurus ini ditemukan oleh trio ilmuwan Google: Yaniv Leviathan, Matan Kalman, dan Yossi Matias, yang memublikasikan makalah mereka di arXiv pada November 2022 —dan kemudian memamerkannya di ICML 2023. Mereka menamakannya: “Fast Inference from Transformers via Speculative Decoding.” Judulnya terdengar seperti mantra Hogwarts, tapi isinya sangat teknikal —dan revolusioner.

Dalam dunia AI, menghasilkan teks itu ibarat menyusun huruf demi huruf, token demi token. Lambat? Ya, bisa seperti nunggu sinyal Wi-Fi di pelosok.

Nah, speculative decoding mempercepat proses ini dengan cara cerdas: dua model AI dijalankan bersamaan —satu kecil dan gesit sebagai perintis jalan, satu besar dan cerdas sebagai penyaring akhir. Kalau tebakan si kecil benar, lanjut. Kalau salah, si besar turun tangan. Hemat waktu, hemat tenaga, dan —yang penting— tidak menurunkan kualitas.

Google sudah lama memakai teknik ini. Tapi mereka tak pernah bilang. Ya iyalah, kayak kita mau bilang ke orang bahwa kita masak pakai bumbu instan. Yang penting rasanya enak, kan?

Untungnya, ada satu orang baik hati di tengah hutan belantara Youtube: CosuCoder. Ia membuat eksperimen mandiri, dengan LLM lokal dan membocorkan cara kerja speculative decoding pakai LM Studio.

Dan saya sendiri juga sudah coba melakukannya menggunakan pc server yang dilengkapi RTX 5070. Hasilnya tokcer, menunjukkan performa AI lokal yang meningkat secara signifikan.

Dengan gaya santai, CosuCoder berkata: “Saya cuma ingin AI saya jalan di laptop dengan AMD 7900 XTX, buat bantu-bantu otomatisasi di rumah. Biar nggak semua kerjaan diurus sendiri.” Ini baru namanya revolusi rumah tangga.

Ia mengetes model LLM bernama Qwen 2.5 Coder 14B dengan dan tanpa speculative decoding. Prompt-nya sederhana: “Tulis skrip Python untuk bermain poker.”

Hasilnya? Tanpa speculative decoding cuma 52,78 token per detik. Setelah dinyalakan? Melonjak jadi 71 token/detik. Itu semacam dari naik angkot jadi naik ojek online —lebih cepat, lebih lincah, dan (semoga) tetap aman.

Eksperimen dilanjutkan. Model Qwen 2.5 Coder 14B jadi model utama, lalu dipasangkan dengan model draft Qwen 0.5B. Hasilnya tokcer. Tapi saat pakai draft model 3B, kecepatan turun, namun akurasinya naik.

Jadi ya tergantung kebutuhan —kita mau cepat tapi sedikit ngawur, atau sedikit lambat tapi lebih presisi. Mirip pilihan antara jurnalisme investigatif dan konten TikTok.

Kombinasi paling efisien? Model utama yang cukup besar, dan model draft yang kecil tapi gesit.

CosuCoder mencoba setting ini di LM Studio versi 0.3.1 (sebab, fitur speculative decoding baru muncul di versi ini). Visualisasi token berwarna hijau jadi indikator: makin hijau, makin valid prediksi si model kecil.

Tapi awas —prompt kreatif seperti “ceritakan kisah anjing yang bahagia” kurang cocok. Prompt faktual atau algoritmik seperti “buat kode Python sorting” jauh lebih efektif. Hasilnya bisa sampai 60% token langsung diterima oleh model besar. Hemat waktu, hemat energi —dan lebih banyak waktu buat ngopi.

Yang menarik, hasil uji CosuCoder menunjukkan bahwa dengan _speculative decoding,_ kecepatan melonjak dari 51,45 menjadi 73,1 token per detik. Tanpa beli GPU baru. Tanpa jampi-jampi. Cukup akal sehat, kombinasi model yang tepat, dan sedikit keberanian untuk eksperimen.

Lebih jauh, data menunjukkan bahwa penggunaan draft model dengan parameter 0.5B punya akurasi 57,7%, sementara 3B mencapai 74,6%. Lagi-lagi, ini soal pilihan: akurasi atau kecepatan? Seperti milih dosen pembimbing: yang satu cepat bales tapi banyak typo, yang satu teliti tapi jawabnya seminggu kemudian.

Google sendiri mengklaim bahwa dengan teknik ini, mereka bisa meningkatkan kecepatan 2–3 kali lipat. Tapi publik tidak diberi tahu. Tidak ada notifikasi, tidak ada pop-up, bahkan tidak ada pesan WhatsApp broadcast.

Padahal ini menyangkut cara kita menerima informasi setiap hari. Kalau saja literasi teknologi masyarakat sedikit lebih tinggi, mungkin kita bisa bertanya: apa lagi yang mereka sembunyikan?

Kritik kita jelas: perusahaan sebesar Google mestinya bersikap lebih transparan tentang bagaimana teknologi mereka bekerja. Ini bukan cuma soal etika, tapi soal hak kita sebagai pengguna.

Sementara itu, masyarakat kita juga punya PR besar: melek teknologi. Supaya tidak hanya bisa jadi pemakai, tapi juga pengkritik yang cerdas dan sadar.

Walhasil, speculative decoding bukan sekadar fitur tambahan. Ia adalah penanda zaman baru di mana AI bisa dijalankan lebih cepat, lebih efisien, bahkan secara lokal di laptop kita.

Dengan pemahaman dan eksperimen mandiri, kita bisa memanfaatkannya untuk hal-hal yang lebih besar dari sekadar membuat skrip poker —seperti bikin sistem otomatisasi rumah, chatbot edukatif, atau bahkan AI yang bisa menulis puisi (dengan rasa lokal).

Tapi ingat: seperti semua teknologi, AI bukanlah dewa. Ia alat. Dan alat hanya sekuat tangan yang menggunakannya.

-000-

Referensi:
1. Leviathan, Y., Kalman, M., & Matias, Y. (2022). _Fast Inference from Transformers via Speculative Decoding._ arXiv preprint arXiv:2211.17192.
2. Google Research Blog. (2024). _Looking Back at Speculative Decoding._

Cak AT – Ahmadie Thaha
Ma’had Tadabbur al-Qur’an, 29/5/2025

Read Also

Recommendation for You

Leave a Reply Cancel reply