Universitas Airlangga Official Website

Reinforcement Learning, Mesin Pembelajaran yang Belajar dari Kesalahan

Reinforcement Learning, model mesin pembelajaran yang belajar dengan trial dan error (Foto: Freepik)
Reinforcement Learning, model mesin pembelajaran yang belajar dengan trial dan error (Foto: Freepik)

UNAIR NEWS – Reinforcement Learning adalah program dengan proses pelatihan model mesin pembelajaran untuk mengambil sebuah keputusan. Pada kuliah tamu Program Studi Statistika, Fakultas Sains dan Teknologi (FST), Universitas Airlangga (UNAIR), Dr Sonnalakshmi Khrisnan, menyampaikan materi tentang model mesin pembelajaran tersebut.

“Terdapat tiga tipe pelatihan pembelajaran mesin, yaitu supervised, unsupervised, dan reinforcement. Dalam reinforcement, kita tidak memiliki data yang inheren seperti supervised dan unsupervised. Tapi, kita mencoba untuk membuat keputusan lewat trial dan error,” tuturnya via Zoom, pada Kamis (11/5/2023).

Dr Krishnan mencontohkan penggunaan reinforcement learning lewat robot. Perlu pelatihan model peluang pada robot yang bergerak di dalam sebuah ruangan.

“Melatih sebuah robot untuk mencapai pengambilan keputusan ketika bergerak bisa memerlukan 10.000 bahkan 50.000 kemungkinan. Hingga robot tersebut belajar untuk bergerak mengelilingi ruangan dengan halang rintang di dalamnya,” jelas Asisten Profesor di SRM Institute of Science and Technology, Tamil Nadu, India.

Potensi Pemanfaatan Reinforcement Learning

Ia mengatakan, “Saat ini perusahaan Deep Mind menggunakan reinforcement learning untuk mengembangkan program permainan Alpha Go Zero. Program tersebut melatih dirinya dari berbagai input data yang dihasilkan dari para pemain gim tersebut. Kemudian program meningkatkan kualitas pengambilan keputusannya dalam gim.”

Menurutnya, reinforcement learning memiliki potensi untuk menyelesaikan masalah yang sulit. Aplikasi dari model mesin pembelajaran tersebut seperti mobil otonom, drone, dan robot industri.

“Terdapat pula cara pengaplikasian lain. Dengan menggunakan model bahasa skala besar dengan model generatif dan reinforcement learning, dan itu kita temukan pada program ChatGPT yang juga menggunakan umpan balik seperti manusia,” tambahnya.

Konsep Dasar Reinforcement Learning

Dr Khrisnan menyebutkan terdapat lima konsep dasar yang ada di dalam reinforcement learning. Yaitu, agen, lingkungan, aksi, keadaan, dan ganjaran.

“Agen adalah pembuat keputusan. Lingkungan artinya ruang dan berbagai objek di dalamnya. Aksi adalah proses pengambilan keputusan. Program nantinya bisa memutuskan pilihan di antara banyak kemungkinan,” jelasnya.

Ia melanjutkan, “Keadaan berarti posisi aktual dari lingkungan dan agen. Konsep tersebut menandakan tentang informasi yang ada di sekitar agen dan lingkungan. Sehingga agen bisa mengambil keputusan.”

Hasil dari sebuah proses agen mengambil keputusan, sebutnya, adalah ganjaran. Konsep ganjaran berarti bentuk timbal balik atas pengambilan keputusan. Dr Khrisnan menjelaskan bahwa timbal balik menjadi dasar evaluasi dalam mengambil keputusan.

“Tujuan akhir dari model reinforcement learning adalah untuk mengumpulkan ganjaran kumulatif. Berdasarkan pada hasil timbal balik, model tersebut akan mempelajari bagaimana memperoleh akumulasi ganjaran yang terpositif,” pungkasnya.

Penulis: Muhammad Naufal Rabbani

Editor: Feri Fenoria

Pemanfaatan TikTok untuk Pembelajaran Literasi Informasi di Perpustakaan

Dosen FH UNAIR Kenalkan Mata Kuliah Hukum Pengungsi untuk Tingkatkan Pembelajaran & Penelitian Hukum Internasional