PERBANDINGAN METODE RESAMPLING PADA IMBALANCED DATASET UNTUK KLASIFIKASI KOMENTAR PROGRAM MBKM

  • Ade Nurhopipah Universitas Amikom Purwokerto
  • Cindy Magnolia Universitas Amikom Purwokerto

Abstract

Imbalanced dataset yaitu kondisi di mana dataset didominasi oleh salah satu kelas adalah permasalahan yang umum ditemukan dalam aplikasi di dunia nyata. Pada penelitian ini, permasalahan tersebut terjadi pada dataset yang dikumpulkan untuk klasifikasi empat jenis komentar publik terhadap program Merdeka Belajar Kampus Merdeka (MBKM). Dataset tersebut memiliki Imbalanced Rasio yang tinggi sebesar 5:1 dan kinerja klasifikasi yang rendah dengan F-Measure di antara 0,6209 sampai 0,6672.  Masalah ini mendasari tujuan penelitian, yaitu mencoba mengeksplorasi beberapa teknik resampling untuk melihat pengaruhnya terhadap kinerja model klasifikasi. Metode resampling yang diteliti adalah undersampling dengan Near Miss dan Tomek Links, oversampling dengan SMOTE dan ADASYN, dan kombinasi undersampling dan oversampling dengan Random Combination Sampling (RCS). Penelitian ini menggunakan empat classifier yaitu Random Forest, Logistic Regression, SVM dan MLP untuk melihat stabilitas efek metode resampling. Berdasarkan analisis yang dilakukan, dapat disimpulkan bahwa metode Near Miss pada penelitian ini tidak memberikan efek positif dalam peningkatan kinerja model. Sebaliknya, metode lainnya dapat memperbaiki kinerja model classiifier dengan meningkatkan nilai F-Measure. Kinerja terbaik diperoleh pada model klasifikasi SVM dengan dataset hasil resampling metode SMOTE. Setelah melalui analisis optimasi model dan metode resampling diperoleh nilai F-Measure maksimal sebesar 0.9524.

Published
2023-01-05
How to Cite
Nurhopipah, A., & Magnolia, C. (2023). PERBANDINGAN METODE RESAMPLING PADA IMBALANCED DATASET UNTUK KLASIFIKASI KOMENTAR PROGRAM MBKM . Jurnal Publikasi Ilmu Komputer Dan Multimedia, 2(1), 9-22. https://doi.org/10.55606/jupikom.v2i1.862