Indonesian-Language Spam Email Classification Using Support Vector Machine

Muhammad Alfa Rizi; Nur Rachmat

doi:10.47709/brilliance.v6i1.7578

Authors

Muhammad Alfa Rizi Universitas Multi Data Palembang, Indonesia
Nur Rachmat Universitas Multi Data Palembang, Indonesia

DOI:

https://doi.org/10.47709/brilliance.v6i1.7578

Keywords:

Email spam, Indonesian language, N-gram, Support Vector Machine, TF-IDF

Abstract

Spam email remains a significant problem in digital communication, particularly for Indonesian-language emails, due to linguistic complexity, informal writing styles, and similarities between spam and legitimate (ham) messages. These factors often reduce the effectiveness of traditional spam filtering techniques. This study evaluates the performance of the Support Vector Machine (SVM) algorithm for classifying Indonesian spam emails using a combination of Term Frequency–Inverse Document Frequency (TF-IDF) and N-gram features. The proposed approach applies a text preprocessing pipeline, including case folding, text cleaning, tokenization, stopword removal, and stemming, to reduce noise and improve feature representation. Text data are transformed into numerical vectors using TF-IDF with unigram and bigram configurations to capture individual terms and contextual phrase patterns commonly found in spam emails. A linear kernel SVM is used as the classification model, and its performance is evaluated using K-Fold Cross-Validation to ensure robustness and reduce evaluation bias. The model is assessed using accuracy, precision, recall, and F1-score metrics. Experiments are conducted on the Indonesian Email Spam Dataset, consisting of 2,636 emails, with 1,368 spam messages and 1,268 non-spam (ham) messages. Experimental results show that the proposed model achieved an average accuracy of 98.71%, precision of 98.34%, recall of 99.20%, and F1-score of 98.76 across 10-fold cross-validation. This study contributes to the development of an efficient and lightweight spam detection model for Indonesian-language emails and provides empirical evidence that SVM combined with TF-IDF and N-gram features remains a reliable alternative to more complex deep learning approaches for medium-sized text datasets.

References

Abdurohim, U., Apriyadi, D., & Listiani, A. D. (2024). IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI KOMENTAR SPAM PADA INSTAGRAM. 13(1), 13–19.

Ainun, E. S., Inayah, U., & Ilmih, M. (2025). Klasifikasi Email Spam Dan Ham Menggunakan Algoritma Support Vector Machine , Naive Bayes Dan Logistic Regression. 77–84. https://doi.org/10.34304/scientific.v2.i2.399

Alita, D., & Isnain, A. R. (2020). Pendeteksian Sarkasme pada Proses Analisis Sentimen Menggunakan Random Forest Classifier. Jurnal Komputasi, 8(2), 50–58. https://doi.org/10.23960/komputasi.v8i2.2615

Amrozi, Y., Yuliati, D., Susilo, A., Novianto, N., & Ramadhan, R. (2022). Klasifikasi Jenis Buah Pisang Berdasarkan Citra Warna dengan Metode SVM. Jurnal Sisfokom (Sistem Informasi Dan Komputer), 11(3), 394–399. https://doi.org/10.32736/sisfokom.v11i3.1502

Andrade, J. J., Goliatt, L., Farage, M., & de Oliveira Marques, G. L. (2020). PREDICTION OF THE PERFORMANCE OF BITUMINOUS MIXES USING ADAPTIVE NEURO-FUZZY INFERENCE SYSTEMS PREVISÃO DO DESEMPENHO DE MISTURAS BITUMINOSAS USANDO SISTEMAS DE INFERÊNCIA ADAPTATIVA NEURO-DIFUSA. Revista Mundi Engenharia Tecnologia e Gestão, 5(6), 1–14. https://doi.org/https://doi.org/10.21575/25254782rmetg2020vol5n61367

Aprilla, S. (2020). Klasifikasi Penyakit Skizofrenia dan Episode Depresi Pada Gangguan Kejiwaan Dengan Menggunakan Metode Support Vector Machine (SVM). Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer, 2(11), 5611–5618. https://j-ptiik.ub.ac.id/index.php/j-ptiik/article/view/3363

Bachri, C. M., & Gunawan, W. (2024). Deteksi Email Spam menggunakan Algoritma Convolutional Neural Network (CNN). Jurnal Edukasi Dan Penelitian Informatika (JEPIN), 10(1), 88–94. https://doi.org/10.26418/jp.v10i1.73306

Farmadiansyah, A. Z., Hidayatullah, A. F., & Rahma, F. (2021). Deteksi Surel Spam dan Non Spam Bahasa Indonesia Menggunakan Metode Naïve Bayes. Automata. https://journal.uii.ac.id/AUTOMATA/article/view/19514

Firmansyah, M. R., Ilyas, R., & Kasyidi, F. (2020). Klasifikasi Kalimat Ilmiah Menggunakan Recurrent Neural Network. Prosiding The 11th Industrial Research Workshop and National Seminar, 11(1), 488–495.

Hanum, A. R., Zetha, I. A., Fajrina, J. N., Wulandari, R. A., Putri, C., Andina, S. P., & Yudistira, N. (2024). ANALISIS KINERJA ALGORITMA KLASIFIKASI TEKS BERT DALAM MENDETEKSI BERITA HOAKS. Jurnal Teknologi Informasi Dan Ilmu Komputer (JTIIK), 11(3), 537–546. https://doi.org/10.25126/jtiik938093

Hapsari, Y., Mujahidin, S., & Fadhliana, N. (2023). Analisis Sentimen Isu Vaksinasi Covid-19 pada Twitter dengan Metode Naive Bayes dan Pembobotan TF-IDF Tokenisasi 1-2 Gram. SPECTA Journal of Technology, 7(2), 573–583. https://doi.org/10.35718/specta.v7i2.812

Laksono, E. P., Basuki, A., & Bachtiar, F. A. (2020). Optimasi Nilai K pada Algoritma KNN untuk Klasifikasi Spam dan Ham Email. JURNAL RESTI (Rekayasa Sistem Dan Teknologi Informasi), 4(2), 377–383.

Mayangsari, M. K., Syarif, I., & Barakbah, A. (2023). Evaluation of stratified k-fold cross validation for predicting bug severity in game review classification. 4(3), 277–288.

Mukhtar, H., Al Amien, J., & Rucyat, M. A. (2022). Filtering Spam Email menggunakan Algoritma Naïve Bayes. Jurnal CoSciTech (Computer Science and Information Technology), 3(1), 9–19. https://doi.org/10.37859/coscitech.v3i1.3652

Priyambodo, A., & Prihati, P. (2020). Evaluasi Ekstraksi Fitur Klasifikasi Teks untuk Peningkatan Akurasi Klasifikasi Menggunakan Naive Bayes. Elkom: Jurnal Elektronika Dan Komputer, 13(1), 159–175.

Purnama, A., & Hamidin, D. (2025). Metode Algoritma Logistic Regression dalam Klasifikasi Email Spam. Journal Software, Hardware and Information Technology, 5(1), 39–47. https://doi.org/10.24252/shift.v5i1.159

Putri, L. G. A., Wicaksono, S. A., & Rahayudi, B. (2025). Analisis Klasifikasi Spam Email Menggunakan Metode Extreme Gradient Boosting (XGBoost ). Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer, 9(2), 1–8.

Rabbani, S., Safitri, D., Rahmadhani, N., Sani, A. A. F., & Anam, M. K. (2023). Perbandingan Evaluasi Kernel SVM untuk Klasifikasi Sentimen dalam Analisis Kenaikan Harga BBM: Comparative Evaluation of SVM Kernels for Sentiment Classification in Fuel Price Increase Analysis. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 3(2), 153–160. https://journal.irpi.or.id/index.php/malcom/article/view/897%0Ahttps://journal.irpi.or.id/index.php/malcom/article/download/897/421

Rivaldo Jeffmarvin, Hafizh Dzaky, Yusup Ardiyanto, Apriliyanto Dwi Saputra, Deri Irawan, & Jason Bernard Ardianto. (2025). Analisis Perbandingan: SMOTE dan Undersampling pada Klasifikasi Spam Naïve Bayes. Journal of Informatics and Interactive Technology, 2(2), 377–383. https://doi.org/10.63547/jiite.v2i2.92

Rofiqi, M. A., Fauzan, A. C., Agustin, A. P., & Saputra, A. A. (2019). Implementasi Term-Frequency Inverse Document Frequency (TF-IDF) Untuk Mencari Relevansi Dokumen Berdasarkan Query. ILKOMNIKA: Journal of Computer Science and Applied Informatics, 1(2), 58–64. https://doi.org/10.28926/ilkomnika.v1i2.18

Shevira, S., Dwi Suarjaya, I. M., & Buana, P. W. (2022). Pengaruh Kombinasi dan Urutan Pre-Processing pada Tweets Bahasa Indonesia. 3(2).

Srinivasan, S., Ravi, V., Alazab, M., Padannayil, S. K., Azad, M. A., M. Al-Zoubi, A., & KP, S. (2021). Spam Emails Detection based on Distributed Word Embedding with Deep Learning. Springer Science and Business Media Deutschland GmbH, 919(1), 161–189. https://doi.org/https://doi.org/10.1007/978-3-030-57024-8_7

Sulaeman, Nana Suarna, Abdul Ajiz, Agus Bahtiar, & Fathurrohman. (2022). Perbandingan Kinerja Algoritma Naïve Bayes Dan C.45 Dalam Klasifikasi Spam Email. KOPERTIP?: Jurnal Ilmiah Manajemen Informatika Dan Komputer, 6(1), 8–14. https://doi.org/10.32485/kopertip.v6i1.130

Trianto, R. B., Triyono, A., Malita, D., Arum, P., Komputer, I., Sains, F., Nuur, U. A., Gajah, J., No, M., Purwodadi, K., & Grobogan, K. (2020). Klasifikasi Rating Otomatis pada Dokumen Teks Ulasan Produk Elektronik Menggunakan Metode N-gram dan Naïve Bayes. Program Studi Teknik Informatika Universitas Pamulang, 5(3), 295–301. https://doi.org/https://doi.org/10.32493/informatika.v5i3.6110

Vernanda, Y., Hansun, S., & Kristanda, M. B. (2020). Indonesian language email spam detection using n-gram and naïve bayes algorithm. Bulletin of Electrical Engineering and Informatics, 9(5), 2012–2019. https://doi.org/10.11591/eei.v9i5.2444

Vincent, R., Maulana, I., Komarudin, O., Komputer, F. I., Karawang, U. S., Gain, I., Vectorizer, C., Gain, I., Bayes, N., & Machine, S. V. (2023). PERBANDINGAN KLASIFIKASI NAIVE BAYES DAN SUPPORT VECTOR MACHINE DALAM ANALISIS SENTIMEN DENGAN MULTICLASS DI TWITTER. JATI (Jurnal Mahasiswa Teknik Informatika), 7(4), 2496–2505.

Wang, D., & Zhao, Y. (2020). Using News to Predict Investor Sentiment: Based on SVM Model. Procedia Computer Science, 174(2019), 191–199. https://doi.org/10.1016/j.procs.2020.06.074

Wibisono, A. D., Dadi Rizkiono, S., & Wantoro, A. (2020). Filtering Spam Email Menggunakan Metode Naive Bayes. TELEFORTECH?: Journal of Telematics and Information Technology, 1(1), 9–17. https://doi.org/10.33365/tft.v1i1.685

Indonesian-Language Spam Email Classification Using Support Vector Machine

Authors

DOI:

Keywords:

Abstract

References

Downloads

Published

How to Cite

Issue

Section

License

Most read articles by the same author(s)

Similar Articles

index

Information

Language