Perbandingan Metode Pembobotan Teks dari Algoritma Winnowing dan TF-IDF dikombinasikan Algoritma Cosine Similarity
(1) Politeknik Negeri Cilacap  Indonesia
(2) Politeknik Negeri Cilacap  Indonesia
(3) Politeknik Negeri Cilacap  Indonesia
Corresponding Author
DOI : https://doi.org/10.24036/voteteknika.v12i4.130627
Abstract
Tugas akhir di perguruan tinggi adalah syarat kelulusan untuk mendapatkan gelar sarjana atau ahli madya. Tingginya keinginan mahasiswa untuk segera lulus terkadang membuat mahasiswa melakukan tindakan plagiarisme. Plagiarisme adalah tindakan meniru dan mengutip bahkan menyalin atau mengakui hasil karya orang lain sebagai hasil karya dirinya sendiri. Penelitian ini bertujuan untuk mengembangkan sistem yang mendeteksi kesamaan antar dokumen teks berbahasa Indonesia dengan membandingkan dua metode pembobotan teks. Algoritma Winnowing dan TF-IDF adalah metode pembobotan teks yang dikombinasikan dengan metode Cosine Similarity. Cosine Similarity merupakan algoritma yang berfungsi untuk mencari nilai kesamaan antar dokumen dari hasil pembobotan algoritma winnowing dan TF-IDF. Hasil penelitian menunjukkan bahwa algoritma Winnowing memiliki nilai kesamaan rata-rata 66%, lebih tinggi dibandingkan TF-IDF yang hanya memiliki rata-rata 57%. Performa algoritma diukur menggunakan akurasi dan RMSE. Nilai akurasi pada algoritma Winnowing adalah 90.47% dan algoritma TF-IDF 81.84%. Nilai RMSE pada algoritma Winnowing sebesar 5,44 dan TF-IDF sebesar 5,34.
Kata kunci : Winnowing, TF-IDF, Cosine Similarity.
The final project at a higher education institution is a graduation requirement to obtain a bachelor's or associate degree. The strong desire of students to graduate quickly sometimes leads them to commit plagiarism. Plagiarism is the act of imitating, quoting, or even copying or acknowledging someone else's work as their own. This research aims to develop a system that detects similarities between Indonesian text documents by comparing two text weighting methods. The Winnowing and TF-IDF algorithms are text weighting methods combined with the cosine similarity method. Cosine similarity is an algorithm used to find the similarity value between documents based on the weighting results of the Winnowing and TF-IDF algorithms. The results of the study showed that the Winnowing algorithm had an average similarity value of 66%, higher than TF-IDF which only had an average of 57%. The performance of the algorithm uses measurements and RMSE. The algorithm's performance was measured using accuracy and RMSE. The accuracy value of the winnowing algorithm is 90.47% and the TF-IDF algorithm is 81.84%. The RMSE value of the Winnowing algorithm is 5.44 and TF-IDF is 5.34.
Keywords: Winnowing, TF-IDF, Cosine Similarity.
References
M. A. Shadiqi, “Memahami dan Mencegah Perilaku Plagiarisme dalam Menulis Karya Ilmiah,” Bul. Psikol., vol. 27, no. 1, p. 30, 2019, doi: 10.22146/buletinpsikologi.43058.
M. S. Wahyuni, D. Setiawan, and T. Syahputra, “Sistem Temu Kembali Informasi Dengan Latent Semantic Analisys Pada Kesamaan Tugas Akhir Mahasiswa,” J. Tek., vol. 1, no. 1, 2021.
S. Susanti, M. Azmi, E. Ali, R. Rahmaddeni, and Y. Saputra Wijaya, “Perbandingan Boolean Model Dan Vector Space Model Dalam Pencarian Dokumen Teks,” Digit. Zo. J. Teknol. Inf. dan Komun., vol. 11, no. 2, pp. 268–277, 2020, doi: 10.31849/digitalzone.v11i2.4168.
A. Meitaningsih, A. S. Aribowo, and N. H. Cahyana, “Text Mining Untuk Mendeteksi Plagiasi Dokumen Dengan Penerapan Stemming Nazief-Adriani Dan Algoritma Smith-Waterman,” Telematika, vol. 17, no. 2, p. 99, 2020, doi: 10.31315/telematika.v1i1.3377.
Y. Sari, A. R. Baskara, P. B. Prakoso, and N. Royani, “Perbandingan Metode Pembobotan Tf-Rf Dan Tf-Idf Dikombinasikan Dengan Weighted Tree Similarity Untuk Sistem Rekomendasi Buku,” J. Teknol. Inf. dan Ilmu Komput., vol. 9, no. 6, pp. 1323–1332, 2022, doi: 10.25126/jtiik.2022935709.
R. Sarno and F. Rahutomo, “Penerapan Algoritma Weighted Tree Similarity Untuk Pencarian Semantik,” JUTI J. Ilm. Teknol. Inf., vol. 7, no. 1, p. 39, 2008, doi: 10.12962/j24068535.v7i1.a60.
D. O. Sihombing, “Implementasi Natural Language Processing ( NLP ) dan Algoritma Cosine Similarity dalam Penilaian Ujian Esai Otomatis,” vol. 4, pp. 396–406, 2022, doi: 10.30865/json.v4i2.5374.
L. Sugiarto, C. Mulyadi, and S. Rihastuti, “Analisa Algoritma String Matching Dan Winnowing Untuk Deteksi Kemiripan Judul Tugas Akhir Perguruan Tinggi,” J. Teknol. Inf., vol. 6, no. 2, pp. 97–106, 2021, doi: 10.52643/jti.v6i2.1141.
R. A. Putra, F. P. Utama, and A. Erlansari, “Penerapan Algoritma Winnowing Pada Sistem Pengelolaan Kerja Praktik Dengan Pendekatan Human-Centered Design (Studi Kasus : Program Studi S-1 Informatika Universitas Bengkulu),” Pseudocode, vol. 10, no. 1, pp. 30–44, 2023, doi: 10.33369/pseudocode.10.1.30-44.
Y. W. Hasibuan, R. B. Veronica, J. Matematika, U. N. Semarang, K. S. Gunungpati, and I. Artikel, “How to Cite,” vol. 11, no. 1, pp. 54–68, 2022.
A. W. Nila Andriani, “Implementasi Text Mining Klasifikasi Topik Tugas Akhir Mahasiswa Teknik Informatika Menggunakan Pembobotan TF-IDF dan Metode Cosine Similarity Berbasis Web,” Senamika, no. September, pp. 130–137, 2021, [Online]. Available: https://conference.upnvj.ac.id/index.php/senamika/article/view/1807%0Ahttps://conference.upnvj.ac.id/index.php/senamika/article/download/1807/1350
E. Siswanto and Y. Ceng Giap, “Implementasi Algoritma Rabin-Karp dan Cosine Similarity untuk Pendeteksi Plagiarisme Pada Dokumen,” J. Algor, vol. 1, no. 2, pp. 16–22, 2020.
M. Azmi, “Analisis Tingkat Plagiasi Dokumen Skripsi Dengan Metode Cosine Similarity Dan Pembobotan Tf-Idf,” Tek. Teknol. Inf. dan Multimed., vol. 2, no. 2, pp. 90–95, 2022, doi: 10.46764/teknimedia.v2i2.51.
E. Sutoyo and A. Almaarif, “Educational Data Mining untuk Prediksi Kelulusan Mahasiswa Menggunakan Algoritme Naïve Bayes Classifier,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 4, no. 1, pp. 95–101, 2020, doi: 10.29207/RESTI.V4I1.1502.
S. P. Gunawan et al., “Analisis Fitur Stilometri dan Strategi Segmentasi pada Sistem Deteksi Plagiasi Intrinsik Teks,” RESTI (Rekayasa Sist. dan Teknol. Inf., vol. 4, no. 5, 2021.
N. C. Haryanto, L. D. Krisnawati, and A. R. Chrismanto, “Temu Kembali Dokumen Sumber Rujukan dalam Sistem Daur Ulang Teks,” Jurnal Teknologi dan Sistem Komputer, vol. 8, no. 2. pp. 140–149, 2020. doi: 10.14710/jtsiskom..8.2.2020.140.140-149.
S. Purwaningrum, A. Susanto, and ..., “Comparation of Dice Similarity and Jaccard Coefficience Against Winnowing Algorithm For Similarity Detection of Indonesian Text Documents,” J. Appl. …, vol. 6, no. 1, pp. 10–22, 2021, [Online]. Available: http://publikasi.dinus.ac.id/index.php/jais/article/view/4453
R. R. Anugrah, J. Rekayasa, and S. Komputer, “Penerapan Cosine Similarity Dan Pembobotan Tf-Idf Untuk Klasifikasi Pengaduan Masyarakat Berbasis Web ( Studi Kasus : Bagwassidik Ditreskrimum Polda Kalbar),” vol. 11, no. 01, 2023.
Article Metrics
Abstract Views : 5 timesRefbacks
- There are currently no refbacks.
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.