Penyaringan email spam menggunakan metode naive bayes
Abstract
Abstract :
Penyebaran e-mail yang tidak diinginkan, yang disebut sebagai Spam, pada lalu-lintas internet bisa berdampak pada rendahnya efisiensi dan menurunnya produktifitas pekerjaan pengguna e-mail. Beberapa mail server seperti yahoo mail dan google mail yang sudah memiliki mesin Spam Filtering pun tidak luput dari Spam sehingga memungkinkan untuk Spam masuk ke dalam inbox pengguna e-mail. Dalam upaya ini, metode Probabilitas Naive Bayes telah menjadi pendekatan populer. Metode ini memanfaatkan teori probabilitas untuk mengklasifikasikan e-mail sebagai Spam atau bukan Spam berdasarkan kemungkinan kata-kata yang muncul dalam pesan tersebut. Abstrak ini menjelaskan konsep dasar metode Probabilitas Naive Bayes dalam konteks penyaringan e-mail Spam, termasuk pengumpulan data pelatihan, perhitungan probabilitas kata, dan pengambilan keputusan klasifikasi. Dengan peningkatan yang berkelanjutan dalam teknologi dan pengolahan bahasa alami, metode Naive Bayes terus berkembang untuk memerangi Spam dan memberikan pengalaman pengguna yang lebih baik dalam mengelola e-mail.
Terdapat beberapa cara untuk membangun Filter Bayesian, pada kali ini penulis mengambil secara umum tahapan-tahapan yang dilakukan dalam pembangunan Filter Bayesian, seperti:
• Pembangunan Database Spam
• Pelatihan Filter Bayesian
• PemFilteran
1. Pembangunan Database Spam
Pada tahap ini dilakukakn Pembangunan database untuk mengenali karakteristik dari suatu Spam bertujuan agar Filter bekerja lebih akurat dalam menjaring suatu Spam dan meminimalisir kesalahan dalam pemblokiran ham. Dalam tahap ini yang harus dilakukan adalah pembuatan database probabilitas kata (Word Probabilities database), pembuatan database ham serta pembuatan database Spam.
• Database Probabilitas Kata (Word Probabilities database): Database ini berisi probabilitas munculnya setiap kata atau token dalam Spam. Probabilitas ini diperoleh dari perhitungan seberapa sering kata-kata tersebut muncul dalam e-mail Spam.
• Database Ham: Database ini digunakan untuk e-mail yang bukan Spam, yang dikenali sebagai ham. Ini penting untuk meminimalkan kesalahan dalam memblokir e-mail yang sebenarnya valid.
• Database Spam: Database ini digunakan untuk mengidentifikasi e-mail sebagai Spam. Untuk meningkatkan akurasi, database ini harus memiliki jumlah sampel Spam yang cukup banyak dan harus diperbarui secara teratur dengan perangkat lunak anti-Spam.
2. Pelatihan Filter Bayesian
Pelatihan Filter Bayesian ini berfungsi agar lebih terbiasa serta selalu up-to-date dalam mengidentifikasi Spam atau non-Spam. Dalam pelatihan Filter Bayesian terdapat beberapa metode yang dapat digunakan, yaitu TEFT - Train Everything, TOE - Train Only Error atau pun TUNE - Train Until No Errors.
• TEFT (Train Everything): Mengklasifikasikan semua teks dan merekam outputnya (benar atau salah). Kemudian, melatih teks yang telah diklasifikasikan dengan benar ke dalam database.
• TOE (Train Only Error): Sama seperti TEFT, tetapi jika teks diklasifikasikan dengan salah, maka tetap dilatih sebagai benar.
• TUNE (Train Until No Errors): Mengklasifikasikan ulang setiap 500 e-mail pertama dan melatih teks yang salah diklasifikasikan sampai tidak ada lagi kesalahan.
3. PemFilteran
• Pada tahap ini, setiap e-mail yang masuk akan diperiksa kata per kata berdasarkan karakteristik tipikal yang telah ditentukan dalam database Spam.
• Probabilitas suatu e-mail dikategorikan sebagai Spam atau non-Spam dihitung berdasarkan kata-kata yang ditemukan dalam e-mail.
• E-mail akan dikategorikan sebagai Spam jika probabilitasnya melebihi batas toleransi yang telah ditetapkan sebelumnya. E-mail Spam akan ditolak atau ditempatkan dalam folder Spam.
• Jika probabilitas e-mail tidak melebihi batas toleransi, e-mail tersebut akan dianggap sebagai ham dan akan masuk ke kotak masuk pengguna.
Kesimpulan :
Kesimpulan dari langkah-langkah dalam pembangunan Filter Bayesian untuk mengidentifikasi Spam e-mail adalah sebagai berikut:
1. Pembangunan Database Spam: Langkah pertama adalah membangun tiga jenis database, yaitu database probabilitas kata (Word Probabilities database) untuk mengukur seberapa sering kata-kata muncul dalam Spam, database ham untuk mengenali e-mail yang bukan Spam, dan database Spam untuk mengidentifikasi e-mail sebagai Spam. Database ini penting untuk meminimalkan kesalahan dalam pemFilteran.
2. Pelatihan Filter Bayesian: Filter Bayesian perlu dilatih agar lebih terbiasa dan selalu diperbarui. Terdapat beberapa metode pelatihan, seperti TEFT (Train Everything), TOE (Train Only Error), dan TUNE (Train Until No Errors), yang digunakan untuk mengklasifikasikan dan merekam e-mail sebagai benar atau salah. Ini membantu Filter menjadi lebih akurat dalam mengidentifikasi Spam.
3. PemFilteran: Pada tahap ini, setiap e-mail yang masuk dianalisis kata per kata berdasarkan karakteristik Spam yang ada dalam database. Probabilitas e-mail sebagai Spam atau bukan dihitung, dan jika probabilitas Spam melebihi batas toleransi yang ditentukan, e-mail tersebut ditolak atau ditandai sebagai Spam. Jika tidak, e-mail tersebut dianggap sebagai ham dan masuk ke kotak masuk pengguna.
Dengan demikian, Filter Bayesian digunakan untuk secara otomatis memisahkan e-mail Spam dari e-mail yang sah, dan langkah-langkah di atas membantu meningkatkan akurasi Filter tersebut. Filter ini terus diperbarui melalui pelatihan berulang agar dapat mengenali jenis e-mail dengan lebih baik seiring waktu.
References
APLIKASI PENYARINGAN E-MAIL SPAM PADA MAIL CLIENT DENGAN MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER (widyatama.ac.id), jpg->pdf - ilovepdf.com.pdf (core.ac.uk), https://core.ac.uk/download/pdf/235044654.pdf