Abstract
Tugas akhir di perguruan tinggi adalah syarat kelulusan untuk mendapatkan gelar sarjana atau ahli madya. Tingginya keinginan mahasiswa untuk segera lulus terkadang membuat mahasiswa melakukan tindakan plagiarisme. Plagiarisme adalah tindakan meniru dan mengutip bahkan menyalin atau mengakui hasil karya orang lain sebagai hasil karya dirinya sendiri. Penelitian ini bertujuan untuk mengembangkan sistem yang mendeteksi kesamaan antar dokumen teks berbahasa Indonesia dengan membandingkan dua metode pembobotan teks. Algoritma Winnowing dan TF-IDF adalah metode pembobotan teks yang dikombinasikan dengan metode Cosine Similarity. Cosine Similarity merupakan algoritma yang berfungsi untuk mencari nilai kesamaan antar dokumen dari hasil pembobotan algoritma winnowing dan TF-IDF. Hasil penelitian menunjukkan bahwa algoritma Winnowing memiliki nilai kesamaan rata-rata 66%, lebih tinggi dibandingkan TF-IDF yang hanya memiliki rata-rata 57%. Performa algoritma diukur menggunakan akurasi dan RMSE. Nilai akurasi pada algoritma Winnowing adalah 90.47% dan algoritma TF-IDF 81.84%. Nilai RMSE pada algoritma Winnowing sebesar 5,44 dan TF-IDF sebesar 5,34.
Kata kunci : Winnowing, TF-IDF, Cosine Similarity.
The final project at a higher education institution is a graduation requirement to obtain a bachelor's or associate degree. The strong desire of students to graduate quickly sometimes leads them to commit plagiarism. Plagiarism is the act of imitating, quoting, or even copying or acknowledging someone else's work as their own. This research aims to develop a system that detects similarities between Indonesian text documents by comparing two text weighting methods. The Winnowing and TF-IDF algorithms are text weighting methods combined with the cosine similarity method. Cosine similarity is an algorithm used to find the similarity value between documents based on the weighting results of the Winnowing and TF-IDF algorithms. The results of the study showed that the Winnowing algorithm had an average similarity value of 66%, higher than TF-IDF which only had an average of 57%. The performance of the algorithm uses measurements and RMSE. The algorithm's performance was measured using accuracy and RMSE. The accuracy value of the winnowing algorithm is 90.47% and the TF-IDF algorithm is 81.84%. The RMSE value of the Winnowing algorithm is 5.44 and TF-IDF is 5.34.
Keywords: Winnowing, TF-IDF, Cosine Similarity.