Dampak Pra-pemrosesan Teks pada Akurasi Analisis Sentimen Multi-Aspek Menggunakan IndoBERT

Muhammad Akmal Nabil Hibrizi; Doni Abdul Fatah

doi:10.52620/sainsdata.v4i1.301

Dampak Pra-pemrosesan Teks pada Akurasi Analisis Sentimen Multi-Aspek Menggunakan IndoBERT

Author

Muhammad Akmal Nabil Hibrizi⁽¹⁾, Doni Abdul Fatah⁽²⁾,
⁽¹⁾ Universitas Trunodjoyo Madura, Indonesia
⁽²⁾ Universitas Trunodjoyo Madura, Indonesia

Corresponding Author

Article Analytic

[File Size: 487KB] Language: en
Available online: 2026-03-02 | Published : 2026-03-02
Copyright (c) 2026 akmal nabil hibrizi
Article can trace at:

Article Metrics

Abstract Views: 431 times PDF Downloaded: 279 times

Abstract

Ulasan daring mengenai destinasi wisata pantai di Kabupaten Sumenep merupakan sumber data krusial, namun analisisnya terhambat oleh data yang tidak terstruktur, terutama kesalahan ketik (typo) yang signifikan menurunkan akurasi model. Penelitian ini berhasil mengatasi tantangan tersebut dengan membangun dan mengevaluasi beberapa skenario model analisis sentimen multi-aspek yang akurat menggunakan IndoBERT. Untuk memaksimalkan performa, penelitian ini menguji dampak dari dua inovasi utama yaitu sebuah modul koreksi ejaan cerdas yang mengkombinasikan Damerau-Levenshtein Distance dengan N-Gram, serta teknik teks augmentasi. Dengan kerangka kerja Cross-Industry Standard Process for Data Mining (CRISP-DM), penelitian menerapkan alur kerja sistematis mulai dari pra-pemrosesan hingga fine-tuning model. Hasil evaluasi perbandingan menunjukkan temuan yang menarik, model baseline (tanpa perlakuan pra-pemrosesan lanjutan) justru mencapai kinerja tertinggi dengan akurasi 96.12%. Sementara itu, model yang menggunakan koreksi ejaan dan augmentasi teks menunjukkan performa yang sedikit lebih rendah. Penelitian ini menghasilkan sebuah model yang sangat akurat dari data asli dan memberikan wawasan penting bahwa pada dataset tertentu, peforma model Transformer seperti IndoBERT sudah mampu menangani noise bahasa informal tanpa memerlukan pra-pemrosesan yang kompleks.

Keywords

Analisis Sentimen Multi-Aspek; IndoBERT; Damerau-Levenshtein Distance; Pra-pemrosesan Teks; Augmentasi Teks.

References

Af’idah, D. I., Anggraeni, P. D., Rizki, M., Setiawan, A. B., & Handayani, S. F. (2023). Aspect-Based Sentiment Analysis for Indonesian Tourist Attraction Reviews Using Bidirectional Long Short-Term Memory. JUITA : Jurnal Informatika, 11(1), 27. https://doi.org/10.30595/juita.v11i1.15341

Azzahra, S. A., & Wibowo, A. (2020). Analisis Ulasan Wisatawan. Jurnal Teknologi Informasi Dan Ilmu Komputer, 7(4), 737. https://doi.org/10.25126/jtiik.202071907

Cahyaningtyas, S., Hatta Fudholi, D., & Fathan Hidayatullah, A. (2021). Deep Learning for Aspect-Based Sentiment Analysis on Indonesian Hotels Reviews. Kinetik: Game Technology, Information System, Computer Network, Computing, Electronics, and Control, 4(3). https://doi.org/10.22219/kinetik.v6i3.1300

Cahyawijaya, S., Winata, G. I., Wilie, B., Vincentio, K., Li, X., Kuncoro, A., Ruder, S., Lim, Z. Y., Bahar, S., Khodra, M. L., Purwarianti, A., & Fung, P. (2021). IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation. EMNLP 2021 - 2021 Conference on Empirical Methods in Natural Language Processing, Proceedings, 8875–8898. https://doi.org/10.18653/v1/2021.emnlp-main.699

Damerau, F. J. (1964). A technique for computer detection and correction of spelling errors. Communications of the ACM, 7(3), 171–176. https://doi.org/10.1145/363958.363994

Devlin, J., Chang, M.-W., Lee, K., Google, K. T., & Language, A. I. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Naacl-Hlt 2019, Mlm, 4171–4186. https://aclanthology.org/N19-1423.pdf

Feng, S. Y., Gangal, V., Wei, J., Chandar, S., Vosoughi, S., Mitamura, T., & Hovy, E. (2021). A Survey of Data Augmentation Approaches for NLP. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, 968–988. https://doi.org/10.18653/v1/2021.findings-acl.84

Jayadianti, H., Kaswidjanti, W., Utomo, A. T., Saifullah, S., Dwiyanto, F. A., & Drezewski, R. (2022). Sentiment analysis of Indonesian reviews using fine-tuning IndoBERT and R-CNN. ILKOM Jurnal Ilmiah, 14(3), 348–354. https://doi.org/10.33096/ilkom.v14i3.1505.348-354

Kokong, D. A. R. S., Irmawati, B., & Dwiyansaputra, R. (2024). Spelling Error Correction in Indonesian Using Damerau-Levenshtein Distance Dan N-Gram. Jurnal Teknologi Informasi, Komputer, Dan Aplikasinya (JTIKA ), 6(1), 257–263. https://doi.org/10.29303/jtika.v6i1.169

Nur, M. A. (2021). Perbandingan Levenshtein Distance Dan Jaro-Winkler Distance Untuk Koreksi Kata Dalam Preprocessing Analisis Sentimen Pengguna Twitter. Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika Dan Kendali), 6(2), 88. https://doi.org/10.33772/jfe.v6i2.17751

Powers, D. M. W. (2020). Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. 37–63. http://arxiv.org/abs/2010.16061

Pratama, A. Y., Sanjaya, G. A., Lubis, N. K., & Aditya, M. R. (2025). Analisis Sentimen Publik Terkait Danantara Menggunakan Algoritma IndoBERT pada Platform Media Sosial. METIK Jurnal, 9(1), 2025. https://doi.org/10.47002/metik.v9i1.1055

Rahma, I. A., & Suadaa, L. H. (2023). Penerapan Text Augmentation untuk Mengatasi Data yang Tidak Seimbang pada Klasifikasi Teks Berbahasa Indonesia. Jurnal Teknologi Informasi Dan Ilmu Komputer, 10(6), 1329–1340. https://doi.org/10.25126/jtiik.2023107325

Rahman, R. A., Pranatawijaya, V. H., & Sari, N. N. K. (2024). Analisis Sentimen Berbasis Aspek pada Ulasan Aplikasi Gojek. KONSTELASI: Konvergensi Teknologi Dan Sistem Informasi, 4(1), 70–82. https://doi.org/10.24002/konstelasi.v4i1.8922

Santoso, P., Yuliawati, P., Shalahuddin, R., & Wibawa, A. P. (2019). Damerau Levenshtein Distance for Indonesian Spelling Correction. Jurnal Informatika, 13(2), 11. https://doi.org/10.26555/jifo.v13i2.a15698

Wei, J., & Zou, K. (2019). EDA: Easy data augmentation techniques for boosting performance on text classification tasks. EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Proceedings of the Conference, 6382–6388. https://doi.org/10.18653/v1/d19-1670

Widansyah, M., Fathia Frazna Az-Zahra, & Agung Pambudi. (2024). Fine-Tuning Model Indobert (Indonesian Bidirectional Encoder Representations from Transformers) untuk Analisis Sentimen Berbasis Aspek pada Aplikasi M-Paspor. Joutica, 9(2), 183–195. https://doi.org/10.30736/informatika.v9i2.1310

Wirth, R., & Hipp, J. (2000). CRISP-DM: towards a standard process model for data mining. Proceedings of the Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, 29-39. Proceedings of the Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, 24959, 29–39. https://www.researchgate.net/publication/239585378_CRISP-DM_Towards_a_standard_process_model_for_data_mining

Refbacks

There are currently no refbacks.

Author

Article Metrics

Abstract

Keywords

References

Refbacks

Policies

Submissions

Other

Share

Username
Password
Remember me