Pre-processing dengan R / Pre-processing on R

    Pre-pocessing merupakan proses untuk mempersiapkan data menjadi terstruktur dengan mengubah data menjadi bentuk yang mudah untuk diproses oleh sistem sehingga data dapat dianalisis.

  • cleansing

Membersihkan tweet dari noise berupa angka, username (@), Retweet, RT, HTML, link, hastag (#), emoticon, dan tanda baca lainnya seperti “,!$%^&*”.


  • Case folding

Mengubah semua huruf kapital (uppercase) menjadi huruf kecil (lowercase)


  • Normalisasi
Normalisasi merupakan tahapan merubah kata tidak baku yang terdapat pada data menjadi kata baku, daftar kata Normalisasi dapat diakses melalui https://github.com/nasalsabila/kamus-alay. 


  • Replace word

Replace word merupakan tahapan merubah kata-kata asing menjadi kata-kata Bahasa Indonesia seperti “stay safe” menjadi “tetap aman” dan memperpendek kata-kata yang berlebihan seperti “gempaaaa” menjadi “gempa”. Kata-kata bisa ditambahkan sendiri sesuai kebutuhan pre-processing data


  • Stemming
Stemming merupakan proses menemukan kata dasar (root word) dari kata berimbuhan (affixed word) dengan cara menghilangkan semua imbuhan (affix) yang terdiri dari awalan (prefix), sisipan (infix), akhiran (suffix) dan kombinasi awalan dan akhiran (confix). Detail kata berimbuhan dalam bahasa Indonesia dan proses pembentukannya bisa dilihat pada artikel ini. Dalam text analytics, stemming merupakan salah satu proses penting yang sangat mempengaruhi kualitas hasil analisis. Pada penelitian ini menggunakan package katadasaR yang berisi fungsi untuk stemming bahasa Indonesia dengan R menggunakan algoritma Nazief dan Andriani. Package katadasaR dapat diakses melalui https://github.com/nurandi/katadasaR. 


Comments

Popular posts from this blog

DHCP Server menggunakan AccesPoint

Pembuatan Jaringan Client Server dan Jaringan DHCP Router pada Cisco Packet Tracer (Langkah dan Penjelasan)

Pengenalan Cisco Packet Tracer dan Membuat Jaringan Sederhana