Universitas Airlangga Official Website

Clustering Berita Palsu dengan K-Means dan Agglomerative Clustering Berbasis Word2Vec

Dalam bidang deteksi Berita Palsu, berbagai pendekatan telah dieksplorasi, masing-masing dengan metode dan akurasinya yang unik. Khususnya, model yang diperkenalkan berdasarkan karakteristik ucapan dan model prediktif, yang menyimpang dari metode konvensional. menggunakan pengklasifikasi Naive Bayes, mencapai akurasi 74% dalam mendeteksi Berita Palsu dari berbagai sumber menggunakan kombinasi algoritma pembelajaran mesin, tetapi ketergantungan mereka pada ambang batas probabilitas yang tidak dapat diandalkan menghasilkan akurasi berkisar antara 85% hingga 91% menggunakan Naive Bayes untuk mendeteksi Berita Palsu di media sosial, tetapi akurasinya menurun pada sumber-sumber yang tidak dapat diandalkan. memperoleh data dari Kaggle, mencapai akurasi rata-rata 74,5%. menggunakan Naive Bayes untuk mendeteksi pengirim spam Twitter, mencapai akurasi antara 70% dan 71,2%. bereksperimen dengan pendekatan yang berbeda, mencapai akurasi 76% mengeksplorasi Naive Bayes, Neural Network, dan Support Vector Machine (SVM), dengan Naïve Bayes mencapai 96,08% akurasi dalam mendeteksi pesan palsu, sementara Neural Network dan SVM mencapai 99% yang mengesankan. 90% menggabungkan KNN dan random forests, meningkatkan hasil hingga 8% dalam model pendeteksian pesan palsu campuran. Berfokus pada berita palsu pemilihan umum Belanda tahun 2012 di Twitter, menemukan bahwa algoritma pohon keputusan memiliki kinerja terbaik dengan skor F sebesar 88% yang mempresentasikan model pendeteksian pesan palsu dengan menggunakan analisis N-gram, yang mencapai akurasi tertinggi sebesar 92%. Mengingat lanskap yang beragam ini, penelitian kami dibangun di atas metodologi ini, dengan menggunakan K-Means dan Agglomerative Clustering.

Teknik-teknik pengelompokan ini menawarkan perspektif unik dalam mendeteksi Berita Palsu, dengan memanfaatkan representasi semantik dari penyematan Word2Vec. Penelitian ini bertujuan untuk berkontribusi pada bidang deteksi Berita Palsu yang terus berkembang dengan memberikan wawasan tentang keefektifan algoritma pengelompokan dalam mengungkap pola dan kemiripan di antara artikel-artikel berita. Keuntungan menggunakan Word2Vec untuk pengelompokan terletak pada kemampuannya untuk menangkap hubungan semantik antara kata-kata, memungkinkan representasi data teks yang lebih bernuansa. Hal ini, pada gilirannya, dapat menghasilkan cluster yang lebih bermakna yang mencerminkan struktur semantik yang mendasari dokumen.

Teknik clustering K-Means diklasifikasikan sebagai bagian dari metode partitional clustering. Segmentasi dataset yang disediakan ke dalam cluster diskrit dilakukan dengan mengurangi kesalahan kuadrat antara titik data individu dan rata-rata (centroid) dari cluster terkait. Algoritma menyelesaikan hal ini dengan menetapkan setiap titik data berulang kali ke pusat cluster yang paling dekat dengannya dalam hal jarak Euclidean, yang secara efektif mengoptimalkan partisi dataset ke dalam cluster yang koheren dan konsisten secara internal.

Penelitian ini melibatkan fitur-fitur yang bermakna dari data tekstual, mengubahnya menjadi representasi vektor menggunakan Word2Vec, dan kemudian menerapkan algoritma pengelompokan untuk mengurutkan artikel yang serupa. Metodologi ini bertujuan untuk meningkatkan kemampuan terkini dalam mendeteksi Berita Palsu, membantu menciptakan alat yang lebih andal dan kuat untuk memerangi misinformasi di era digital.

Dalam analisis komparatif metrik pengelompokan, pengelompokan K-Means menunjukkan Skor Kemurnian 88,09% dan Skor Rand yang Disesuaikan 58,03%. Sebaliknya, Agglomerative Clustering dengan metode Ward menghasilkan Skor Kemurnian 85,13% dan Skor Rand yang Disesuaikan 49,36%. Skor Kemurnian 88,09% untuk K-Means menunjukkan kemampuan yang kuat untuk membentuk cluster di mana sebagian besar titik data memiliki kelas yang sama. Pengelompokan Aglomerative dengan Ward, meskipun sedikit lebih rendah yaitu 85,13%, juga menunjukkan pemisahan kelas yang efektif di dalam cluster. Ketika mempertimbangkan Adjusted Rand Score, yang memperhitungkan peluang dan mengukur kesepakatan antara label yang sebenarnya dan label yang diprediksi, K-Means secara signifikan mengungguli Agglomerative Clustering dengan Ward. Skornya masing-masing adalah 58,03% dan 49,36%.

Upaya penelitian kami di masa depan akan berpusat pada integrasi penyematan Transformer. Langkah strategis ini bertujuan untuk meningkatkan Skor Rand yang Disesuaikan dan Skor Kemurnian, dengan memanfaatkan kemampuan Transformer yang canggih untuk meningkatkan standar representasi vektor. Singkatnya, analisis kami saat ini telah menjelaskan tantangan yang terkait dengan penyematan word2vec dalam konteks pengelompokan. Adopsi proaktif dari penyematan Transformer merupakan langkah penting dalam menyempurnakan proses representasi vektor, dengan tujuan akhir untuk meningkatkan hasil pengelompokan.

Link Publikasi

https://ijmcr.in/index.php/ijmcr/article/view/693