Penerapan Naïve Bayes dalam Filtering Spam Email

Authors

  • Alfian ilyasya Universitas Pamulang

Abstract

Email yang tidak diminta yang berisi promosi produk, pornografi, virus, dan konten yang tidak penting dikirim ke banyak orang dikenal sebagai spam. Masalah spam dapat diatasi dengan adanya aplikasi untuk menyembunyikan email, yaitu aplikasi yang secara otomatis mendeteksi email, apakah apakah itu spam? Bayes yang naif adalah salah satu teknik klasifikasi dasar yang dapat digunakan untuk mengelompokkan kumpulan data sesuai dengan kriteria yang spesifik. Teknik ini menggunakan teorema probabilitas, yang berarti mencari kesempatan terbaik, dengan mengantisipasi kemungkinan di masa depan berdasarkan informasi dari masa lalu. Tujuan Penting Penelitian ini meneliti penggunaan metode Naïve Bayes untuk mengidentifikasi email, menguji aplikasi pada lima email yang terdiri dari tiga email ham dan dua email spam yang menunjukkan bahwa algoritma Bayes naive dapat mengelompokkan email dengan cukup akurat.

 

Apa itu spam?

Spam, juga disebut junk mail, adalah penyalahgunaan berita elektronik untuk menampilkan iklan dan persyaratan lainnya yang menghasilkan ketidaknyamanan bagi mereka yang menggunakan internet. Spam, menurut Rahardjo (2006), adalah unsolicited. email yang tidak diminta, dikirim ke banyak individu. Menurut Lambert (2003), spam adalah sebagai berikut:

  1. Isi email tidak relevan dengan minat penerima.
  2. Penerima tidak dapat menolak email yang akan datang. yang tidak diminta dengan cara konvensional.
  3. Dari pihak penerima, pengiriman dan penerimaan pesan ini menawarkan keuntungan bagi pengiriman.

Bentuk spam berita yang umum dikenal meliputi spam usenet, spam pesan instan, dan spam pos-el. grup berita, spam mesin pencari informasi internet (web) spam situs web, spam blog, dan spam berita pada telepon genggam dan spam di forum online.

Filtering spam

Email filtering adalah suatu proses yang otomatis akan mendeteksi sebuah email, apakah email tersebut sebuah spam atau bukan (ham email).Beberapa metode yang dapat digunakan untuk email filtering antara lain Keyword filtering, Black listing dan White listing, Signature-Based filtering, Naïve Bayesian (statistical) filtering. Beberapa karakteristik email filtering yaitu:

  1. Binary class email filtering hanya mengklasifikasikanemail kedalam kelas spam dan legitimate email.
  2. Prediksi email filtering mampu melakukan prediksi kelasdari suatu email.
  3. Komputasi mudah mengingat sifat data email yang memiliki dimensitinggi maka dibutuhkan sebuah email filteryangmampu melakukan komputasi dengan mudah.
  4. Learning mampu melakukan learning dari email-email yangsudah ada sebelumnya.
  5. Kinerja yang bagus memiliki akurasi yang tinggi, meminimalkannilaifalse positive dan mentolerir nilai falsenegativeyang cukup tinggi.

 

Naïve bayes

Naïve Bayes, juga dikenal sebagai multinomial naïve bayes, adalah teknik yang digunakan untuk mengklasifikasikan kumpulan dokumen. Metode probabilitas dan statistik yang diusulkan oleh ilmuwan Inggris Thomas Bayes digunakan oleh Algoritmaini. Metode NB terdiri dari dua tahap dalam proses klasifikasi teks: tahap pelatihan dan tahap pengujian (klasifikasi). Pada tahap pelatihan, sampel dokumen dianalisis melalui pemilihan kosa kata, yaitu kata-kata yang mungkin ditemukan dalam koleksi dokumen sampel yang dapat digunakan sebagai representasi dokumen. Selanjutnya, penentuan probabilitas probabilitas prio

Studi kasus filtering spam menggunakan naïve bayes

Dalam studi kasus ini, pertama-tama, diperlukan sebuah dataset yang terdiri dari email yang sudah diklasifikasikan sebagai spam atau bukan spam (ham). Data ini digunakan untuk melatih model Naive Bayes. Kemudian, dataset tersebut dibagi menjadi dua bagian: data pelatihan (training data) yang digunakan untuk melatih model dan data pengujian (test data) yang digunakan untuk menguji sejauh mana model ini efektif.

Langkah-langkah dalam studi kasus ini termasuk:

  1. Pengumpulan Data: Mengumpulkan dataset email yang sudah diklasifikasikan sebagai spam atau bukan spam.
  2. Pra-Pemrosesan Data: Membersihkan data, menghilangkan karakter khusus, mengubah teks menjadi representasi vektor (misalnya, menggunakan metode seperti TF-IDF).
  3. Pelatihan Model: Menggunakan algoritma Naive Bayes untuk melatih model dengan data pelatihan.
  4. Pengujian Model: Menggunakan data pengujian untuk menguji sejauh mana model ini efektif dalam mengklasifikasikan email sebagai spam atau bukan spam.
  5. Evaluasi: Mengukur kinerja model menggunakan metrik seperti akurasi, presisi, recall, dan F1-score.

References

Published

2023-10-25

How to Cite

Alfian ilyasya. (2023). Penerapan Naïve Bayes dalam Filtering Spam Email. BIKARMA : Buletin Ilmiah Karya Mahasiswa, 1(1). Retrieved from https://ojs.jurnalmahasiswa.com/ojs/index.php/bikarma/article/view/160