Teks
PERBANDINGAN ALGORITMA KLASIFIKASI DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES
Diagnosis penyakit diabetes secara akurat menjadi tantangan penting dalam
dunia kesehatan khususnya ketika data yang digunakan memiliki masalah seperti
nilai pencilan (outlier), ketidakseimbangan kelas, dan skala fitur numerik yang
bervariasi. Jika tidak ditangani dengan benar kondisi ini dapat menurunkan
performa model klasifikasi. Penelitian ini bertujuan untuk membandingkan
performa lima algoritma klasifikasi Decision Tree, Naïve Bayes, K-Nearest
Neighbor (KNN), Logistic Regression, dan Random Forest dalam mendiagnosis
penyakit diabetes setelah melalui tahapan preprocessing secara optimal, yaitu
penanganan outlier menggunakan metode IQR, standarisasi data dengan
StandardScaler, dan penyeimbangan kelas menggunakan SMOTE. Evaluasi
dilakukan dengan metrik akurasi, precision, recall, f1-score, dan AUC
menggunakan data uji. Fokus utama pada nilai recall karena kemampuan model
dalam mendeteksi seluruh kasus positif (penderita diabetes) menjadi prioritas
dalam konteks medis. Hasil penelitian menunjukkan bahwa algoritma Random
Forest memberikan performa terbaik dengan akurasi 77%, precision 78%, recall
77%, f1-score 77%, dan AUC sebesar 0.79. Logistic Regression berada di posisi
kedua dengan akurasi 74% dan AUC 0.83, disusul oleh KNN (71%, AUC 0.72),
Naïve Bayes (70%, AUC 0.81), dan Decision Tree (69%, AUC 0.63). Temuan ini
mengindikasikan bahwa preprocessing yang tepat berperan dalam meningkatkan
performa klasifikasi dan Random Forest dapat direkomendasikan sebagai model
yang andal untuk diagnosis penyakit diabetes.
| S00013.25 | RF TI.S00013.25 Raf p | My Library (Referensi) | Tersedia |
Tidak tersedia versi lain