149 Juta Paragraf

Catatan Cak AT

Konon, orang bilang kaum muslimin itu miskin inovasi. Setelah abad kejayaan peradaban Islam, tak ada lagi kemajuan, semuanya sudah pindah ke Barat yang sebetulnya belajar dengan baik dari Islam. Aduh, kalau tuduhan itu punya kaki, sudah saya suruh dia lari keliling pesantren tujuh kali sambil membawa 37 ribu kitab dalam karung goni agar tahu rasa.

Betapa tidak, harta karun intelektual kita itu seperti galaksi yang tak habis dijelajahi: ada teks Arab, ada Inggris, ada Persia, belum lagi gunung-gunung kitab berbahasa Indonesia, Swahali, Uzbek, silahkan anda sebutkan lainnya, yang jumlahnya, kalau ditumpuk, bisa bikin Menara Pisa terlihat tegak lurus.

Namun herannya, seluruh kekayaan intelektual itu belum benar-benar menjadi darah yang mengalir dalam nadi sistem AI zaman now. ChatGPT misalnya —entah bagaimana nasib kitab-kitab kita di sana. Diundang pun tidak, tercatat sebagai warga digital pun belum tentu. Google pun sama saja, seringkali halu kalau diminta info soal tasawufnya Imam al-Ghazali.

Jadinya, kita ini seperti penonton yang bayar karcis mahal, tetapi hanya disuguhi satu sisi cerita tentang Islam: versi dunia Barat yang sudah diproses, disuling, bahkan difraksi entah pakai lensa apa. Kita jadi konsumen informasi, bukan produsen makna. Yang lebih parah, kita tak mampu menyaring info keislaman dari khazanah yang disediakan dunia maya.

Padahal, mestinya kita ini tidak hanya menikmati “menu” AI; kita ikut masuk dapurnya, membawa bumbu sejarah dan rempah pemikiran yang sudah diasah para ulama sejak zaman tinta masih diperas dari arang dan kulit kayu. Kalau belum bisa jadi penyedia teknologi, minimal jadi penyedia dataset-lah.

Nah, di tengah situasi agak absurd ini, saya mencatat satu perjalanan kecil —yang rupanya berakhir dengan angka maha raksasa. Perjalanan ini bermula sebagai kerja voluntir, tapi kok lama-lama seperti proyek rekonstruksi peradaban. Perpustakaan Kitab Smart Digital, namanya begitu sajalah untuk sementara.

Alatnya disediakan IAI al-Qur’an al-Ittifaqiah dan Pondok Pesantren al-Ittifaqiah Indralaya —tempat yang kalau diceritakan ke Google Maps pun dia ikut muter-muter mencarinya. Niat awalnya sederhana: merapikan kitab-kitab itu agar bisa dibaca mesin, dibaca manusia, dibaca siapa pun yang mau bersahabat dengan pengetahuan.

Tahadduts bin ni‘mah saja, saya tulis catatan ini supaya perjalanan intelektual kita tidak seperti kaset lama yang diputar diam-diam. Dan tibalah berita itu pada 9 Desember 2025 di depan layar minipc saya: proses chunking selesai. Selesai sungguhan. Saya pakai Strix Halo Ryzen AI +395 dengan total RAM/VRAM 128 GB.

Dengan database DuckDB sebesar 650 GB —ukuran yang kalau dikopi ke flashdisk, bisa bikin flashdisknya bertobat. Total halamannya dua puluh juta. Setelah dipecah menjadi paragraf, keluarlah darinya angka yang membuat saya spontan meyakini bahwa para malaikat pencatat amal pun pasti memakai sistem paralel: 149 juta paragraf!

Dari mana datangnya angka segila itu? Ternyata halaman-halaman digital kitab itu subur sekali, satu halaman bisa beranak 5–8 paragraf, sementara kitab-kitab dengan komentar pinggir bisa memproduksi paragraf seperti ladang jagung di musim panen. Maka ketika database menampilkan ‘max(paragraph_id) = 148,968,946’, saya cuma bilang: Masya Allah.

Dalam proses ini, saya sering menyebut dua istilah — _chunking_ dan _embedding_. Keduanya lahir dari dunia AI, tetapi pada dasarnya hanyalah cara menertibkan kitab agar bisa “disentuh” dan “dipahami” oleh mesin. Saya setelah belajar khazanah kitab di ma’had, kini mencoba masuk dan menyelami khazanah pengetahui AI.

_Chunking_ itu ibarat memotong kitab tebal berabad-abad itu menjadi potongan-potongan kecil supaya tidak membuat komputer megap-megap; seperti memotong singkong sebelum digoreng, supaya masaknya maknyus dan tidak bikin minyak trauma.

Lalu _embedding_ adalah proses mengubah potongan-potongan itu menjadi angka-angka cerdas —semacam sidik jari digital— yang memungkinkan mesin memahami kemiripan makna antarteks. Kalau manusia pakai otak dan pengalaman, mesin pakai vektor matematis yang diam-diam lebih rumit dari perasaannya mantan.

Tanpa dua proses ini, kitab-kitab kita hanya jadi hiasan digital yang cantik tapi bisu. Kali ini, kedua proses mesti dilakukan terhadap 37 ribu kitab, 20 juta halaman, 149 juta paragraf. Yang bikin merinding bukan hanya angka jumlahnya. Dataset ini, dari hikayat keilmuan umat, ternyata melampaui dataset dunia yang pernah ada.

Ia jauh melampaui data Wikipedia Bahasa Inggris dan mendekati skala Books3 —dataset yang dipakai melatih model bahasa besar. Kita selama ini menyangka perpustakaan ulama hanyalah tumpukan kitab kuno yang harus disikat kemoceng tiap pekan. Ternyata, jika dibuka dan diproses dengan teknologi, ia menjelma infrastruktur pengetahuan kelas dunia.

Kalau para ilmuwan AI tahu, mereka mungkin menyesal tidak belajar bahasa Arab dari kecil. Namun inilah bagian lucunya: dataset sekelas ini justru lahir di sebuah server lokal dengan GPU RTX 5070, bukan pusat riset Silicon Valley. Terima kasih, IAIQ dengan dermawan menyediakan server ini dan minipc yang saya pakai.

Tapi, ketika lebih jauh saya masuk ke sisi teknis, dan saya hitung kebutuhan embedding-nya, hasilnya seperti resep masakan yang ngaco: 149 juta paragraf × 3 KB per embedding, totalnya hampir 450 GB vector, dan kalau dihitung dengan cara mengindeks ala ANN yang canggih, maka jadilah besar file databasenya sekitar 600–700 GB.

Ini bukan dataset; ini bintang neutron. Karena itu, saya harus memecah prosesnya menjadi puluhan file kecil —mirip strategi emak-emak yang memisahkan lauk dalam kotak kecil agar tahan seminggu. Dengan cara itu, embedding bisa diolah bertahap, tidak bikin database stres, dan kalau ada file rusak pun tak perlu menyantet listrik PLN.

Server GPU tunggal itu, dengan tenaga yang tak sebesar harapan, sanggup memproses sekitar 40 embedding per detik. Kalau dihitung lurus, pekerjaan embedding akan selesai sekitar 43 hari. Tapi siapa bilang hidup itu lurus? Ada sejumlah trik bisa dilakukan, misalnya dengan proses _batch_ 256, _parallel workers_, selain _prefetching_.

Semua trik teknologi dapur mesin AI, kita keluarkan. Dengan begitu, kecepatannya bisa naik hingga 150–200 embedding per detik. Total waktu 9–12 hari. Masih panjang, tapi setidaknya jaraknya masih manusiawi. Dalam 12 hari itu, Nabi Yunus sudah bisa keluar dari perut ikan, dan proyek ini —insyaAllah— keluar dari perut GPU.

Namun angka-angka itu bukan tujuan akhir. Yang penting adalah pesan yang bersembunyi di baliknya: kita sedang belajar beralih dari konsumen data menjadi penyedia data.

Kita tidak lagi menerima narasi tentang Islam yang ditulis pihak lain; kita menyajikan sendiri sumber primer peradaban kita, dengan cara yang terhormat, cermat, dan futuristik. Kita tidak sekadar membuka kitab; kita mengubah kitab menjadi cahaya digital yang bisa menembus algoritma dunia. Pelan-pelan, peradaban kita kembali duduk di kursi pengemudi.

Karena itu semua, tujuan besarnya bukan sekadar menumpuk paragraf sampai tembus awan. Kita sedang menyiapkan pondasi untuk membuat sistem pencarian hibrida —sejenis Google kecil-kecilan khusus peradaban Islam, atau kalau mau jujur, chatGPT versi awal yang khusus paham kitab kuning — tidak pakai _hallucination_ seenaknya.

Bayangkan Anda mencari satu istilah fikih, dan sistem tidak hanya menampilkan halaman kitab, tapi juga rangkuman, hubungan antarteks, komentar lintas abad, bahkan jawaban berbasis dalil dari puluhan kitab sekaligus.

Di sinilah seluruh proses _chunking–embedding_ itu menjadi “otak mesin”, sementara 37 ribu kitab menjadi bahan bakarnya. Kita tidak sedang membuat perpustakaan digital biasa; kita sedang membangun mesin tafsir masa depan.

Dan seperti biasa, angka-angka raksasa ini pada akhirnya mengajar satu hal sederhana: bahwa perjalanan umat sering kali tampak mustahil sebelum dimulai. Bahwa paragraf yang jumlahnya 149 juta itu sejatinya hanyalah gema dari kecintaan ulama terhadap ilmu, yang kini kita lanjutkan dengan alat yang berbeda tetapi semangat yang sama. Bahwa menjadi kaya tidak cukup kalau kekayaan itu disimpan dalam lemari kayu jati; ia baru bermakna ketika keluar menjadi suluh bagi generasi baru.

Siapa tahu, dari potongan paragraf yang tak terhitung itu, lahir masa depan di mana dunia tidak lagi belajar tentang Islam dari lensa yang buram. Melainkan dari sumber-sumber kita sendiri, yang jernih, luas, dan penuh martabat. Pada akhirnya, 149 juta paragraf ini bukan sekadar data; ia undangan diam-diam agar umat kembali membaca dirinya sendiri.

Cak AT – Ahmadie Thaha
Ma’had Tadabbur al-Qur’an, 10/12/2025

Read Also

Recommendation for You

Leave a Reply Cancel reply