Klasifikasi Teks Bahasa Indonesia pada Corpus Tak Seimbang Menggunakan NWKNN

Ridok, Achmad • Latifah, Retnani
Conference paper Konferensi Nasional Sistem dan Informatika 2015 • October 2015 Indonesia

Abstract

Pada umumnya pengklasifikasian teks mengasusumsikan data latih terdistribusikan sama rata pada setiap kategori. Padahal pada Kenyataannya kumpulan data yang tidak seimbang sering kali muncul. Penelitian ini mencoba menerapkan algoritma Neighbor Weighted K-Nearest Neighbor (NWKNN) untuk mengklasifikasikan dokumen teks berbahasa Indonesia dengan corpus yang tidak seimbang. Algoritma ini memberikan bobot yang kecil untuk tetangga – tetangga yang berasal dari kategori yang besar dan memberikan bobot yang besar pada tetangga – tetangga yang berasal dari kategori yang kecil. Hasil uji coba sistem pada 785 dokumen dari 8 kategori dengan rasio dokumen latih 75% dan dokumen uji 25% serta exponent = 2 dan threshold document frequency = 5, menunjukkan nilai rata - rata precision, recall dan F1 measure masing-masing sebesar 84.2%, 86.7% dan 84.3%. Hasil perbandingan dengan algoritma KNN menunjukkan nilai recall dan F1 measure NWKNN masing-masing lebih tinggi sebesar 6.9% dan 2.6% daripada nilai recall dan F1 measure KNN.

Metrics

  • 4 views
  • 9 downloads

Conference

Konferensi Nasional Sistem dan Informatika 2015

Konferensi Nasional Sistem dan Informatika 2015 (KNS&I 2015) merupakan konferensi nasional tahuna... see more