Teks
ANALISIS PERBANDINGAN TF-IDF DENGAN COUNTVECTORIZER UNTUK EKSTRAKSI FITUR PADA KLASIFIKASI SENTIMEN PILKADA 2024 DI X MENGGUNAKAN ALGORITMA SVM
Pilkada 2024 menjadi isu yang ramai diperbincangkan masyarakat di media sosial,
khususnya platform X. Beragam opini publik yang muncul menimbulkan
kebutuhan untuk menganalisis sentimen secara sistematis. Namun, data opini
publik di X terkait Pilkada 2024 belum banyak dianalisis secara mendalam. Selain
itu, meskipun TF-IDF dan CountVectorizer merupakan teknik ekstraksi fitur teks
yang umum digunakan, perbandingan efektivitas keduanya dengan algoritma
Support Vector Machine (SVM) dalam konteks Pilkada 2024 masih jarang
dilakukan. Penelitian ini bertujuan membandingkan kedua metode tersebut
menggunakan SVM, karena memiliki kemampuan dalam mengolah data teks
berdimensi tinggi serta mampu mengatasi keterbatasan yang terdapat pada
algoritma lain, seperti K-Nearest Neighbor (KNN).
Data penelitian diperoleh melalui teknik crawling menggunakan tweet-harvest
dengan kata kunci terkait Pilkada 2024 di platform X, pada periode 1 Januari hingga
31 Desember 2024, dengan total 8.069 tweet. Selanjutnya, data melewati tahap
preprocessing, pelabelan sentimen ke dalam kategori positif, negatif, dan netral,
serta pembagian data latih dan uji secara seimbang. Metode yang digunakan adalah
eksperimen dengan membandingkan kinerja model klasifikasi berdasarkan dua
pendekatan ekstraksi fitur teks, yakni TF-IDF dan CountVectorizer, yang
diimplementasikan menggunakan algoritma SVM. Evaluasi model dilakukan
menggunakan metrik akurasi, presisi, recall, dan f1-score.
Hasil penelitian memperlihatkan bahwa model SVM dengan ekstraksi fitur
CountVectorizer mencapai akurasi tertinggi sebesar 91,74%, sedikit lebih baik
dibandingkan penggunaan TF-IDF yang memperoleh akurasi 91,10%. Selain itu,
CountVectorizer terbukti lebih konsisten dalam mengklasifikasikan seluruh
kategori sentimen, terutama pada kelas netral dan negatif. Oleh karena itu,
CountVectorizer dapat dianggap sebagai metode ekstraksi fitur yang lebih efektif
dalam analisis sentimen opini publik terkait Pilkada 2024 di X, serta berpotensi
menjadi rujukan untuk penelitian serupa di masa depan.
| S00037.25 | RF TI.S00037.25 Sya a | My Library (Referensi) | Tersedia |
Tidak tersedia versi lain