Klasifikasi Teks Bahasa Indonesia pada Corpus Tak Seimbang Menggunakan NWKNN
October 2015
Achmad Ridok, Retnani Latifah

Metrik

  • Eye Icon 186 views
  • Download Icon 648 downloads
Metrics Icon 186 views  //  648 downloads
Klasifikasi Teks Bahasa Indonesia pada Corpus Tak Seimbang Menggunakan NWKNN Image
Abstrak

Pada umumnya pengklasifikasian teks mengasusumsikan data latih terdistribusikan sama rata pada setiap kategori. Padahal pada Kenyataannya kumpulan data yang tidak seimbang sering kali muncul. Penelitian ini mencoba menerapkan algoritma Neighbor Weighted K-Nearest Neighbor (NWKNN) untuk mengklasifikasikan dokumen teks berbahasa Indonesia dengan corpus yang tidak seimbang. Algoritma ini memberikan bobot yang kecil untuk tetangga – tetangga yang berasal dari kategori yang besar dan memberikan bobot yang besar pada tetangga – tetangga yang berasal dari kategori yang kecil. Hasil uji coba sistem pada 785 dokumen dari 8 kategori dengan rasio dokumen latih 75% dan dokumen uji 25% serta exponent = 2 dan threshold document frequency = 5, menunjukkan nilai rata - rata precision, recall dan F1 measure masing-masing sebesar 84.2%, 86.7% dan 84.3%. Hasil perbandingan dengan algoritma KNN menunjukkan nilai recall dan F1 measure NWKNN masing-masing lebih tinggi sebesar 6.9% dan 2.6% daripada nilai recall dan F1 measure KNN.

Full text
Show more arrow
 

Metrik

  • Eye Icon 186 views
  • Download Icon 648 downloads
Metrics Icon 186 views  //  648 downloads