UNAIR NEWS – Himpunan Mahasiswa Teknologi Sains Data (HIMATESDA) Fakultas Teknik Maju dan Multidisiplin (FTMM) Universitas Airlangga (UNAIR) menyelenggarakan Data Science Training Center (DSTC) bertajuk Introduction to LLM: Build Your Own Chatbot. Acara tersebut berlangsung di Ruang 6.09, Gedung Kuliah Bersama, Kampus MERR-C UNAIR pada Minggu (4/5/2025).
DSTC bertujuan untuk mengenalkan teknologi large language model (LLM) sebagai bagian dari pengembangan keterampilan mahasiswa di bidang teknologi sains data. Acara ini mengundang Geraldus Wilsen, insinyur akal imitasi (AI Engineer) sekaligus peneliti masa sebagai narasumber.
Memahami Cara Kerja LLM
Dalam paparannya, Wilsen menjelaskan bahwa LLM seperti chatbot pada ChatGPT bekerja sepenuhnya berdasarkan probabilitas. Teknologi ini merespons berdasarkan kemungkinan kata selanjutnya dari data yang telah mereka pelajari. LLM tidak pintar secara bawaan, melainkan terlatih dengan data dalam jumlah besar yang telah terkumpul dari berbagai sumber seperti Google dan Meta.
Selain itu, kemampuan LLM sangat tergantung pada ukuran modelnya. Ketika ukurannya kecil, model tidak dapat memahami hal kompleks. Sebaliknya, model dengan ukuran besar mampu menangkap konteks yang lebih rumit. “Model kecil itu ibarat anak kecil yang baru belajar bicara, sementara model besar sudah seperti orang dewasa yang bisa kita ajak diskusi mendalam,” tambahnya.
Proses dalam Merancang Chatbot
Dalam sesi praktik, Wilsen mengajak untuk memahami cara kerja LLM. Mulai dari konsep-konsep teknis seperti embedding, tokenization, dan retrieval-augmented generation (RAG). Proses-proses ini penting dalam membangun chatbot, karena berperan dalam mengubah data teks menjadi angka dan menemukan kemiripan antar data.
“Tokenization mengubah kata menjadi angka, lalu embedding memetakan angka-angka tersebut ke dalam ruang vector. Setelah itu akan tersimpan di vector database (basis data khusus untuk menyimpan vector) berdasarkan kemiripan, yang nantinya terpakai saat LLM menjawab pertanyaan,” jelasnya.
Berkaitan dengan hal tersebut, Wilsen memperkenalkan semantic chunking. Teknik untuk memecah teks panjang menjadi bagian-bagian kecil. Selain itu, Wilsen juga memaparkan mengenai chain of thought (CoT), sebuah strategi agar LLM dapat menalar secara bertahap dalam merespons.
“CoT penting ketika model tidak langsung paham. Kita perlu memandunya agar mampu berpikir selangkah demi selangkah. Ini seperti cara kita memecahkan sebuah soal,” tambahnya.
Terakhir, Wilsen mencontohkan alur penggunaan RAG secara lengkap, yakni ketika pengguna menyediakan data, mengubahnya menjadi embedding, menyimpan di vector database, lalu sistem melakukan retrieval saat pengguna mengajukan pertanyaan. Hasilnya akan LLM kembangkan dalam tahap generation.
“RAG adalah metode ketika LLM tidak punya informasi. Ini membuat chatbot tidak hanya mengandalkan apa yang sudah ia hafal sebelumnya, tetapi juga mampu memberikan jawaban relevan dari sumber data aktual yang tersedia,” pungkasnya.
Penulis: Fania Tiara Berliana Marsyanda
Editor: Ragil Kukuh Imanto





