Abstract


Struk belanja merupakan dokumen bukti yang diperoleh setelah melakukan transaksi pembelian. Struk belanja mengandung informasi penting yang berguna untuk pelacakan pengeluaran dan pelaporan keuangan. Namun, proses pengambilan informasi dari struk secara manual cenderung rentan terhadap kesalahan dan memakan waktu. Penelitian ini bertujuan untuk menerapkan metode Bidirectional Long-Short Term Memory (Bi-LSTM) dalam ekstraksi informasi pada struk belanja. Bi-LSTM dipilih karena kemampuannya menangkap pola dalam teks tidak terstruktur melalui analisis sekuensial dari dua arah. Proses ekstraksi informasi dilakukan dalam beberapa tahapan, mulai dari pengumpulan data dari dataset CORD (Consolidated Receipt Dataset for Post-OCR Parsing) dan foto struk belanja yang diambil dengan ponsel. Tahapan berikutnya meliputi pemrosesan gambar (image preprocessing), ekstraksi teks menggunakan Optical Character Recognition (OCR), pemrosesan teks (text preprocessing), pelabelan, dan pembuatan model Bi-LSTM melalui tahap pelatihan, pengujian, serta evaluasi model dengan confusion matrix. Hasil penelitian menunjukkan bahwa model Bi-LSTM yang dikembangkan mencapai akurasi sebesar 95%, precision sebesar 95%, dan recall sebesar 95%. Penelitian ini diharapkan dapat berkontribusi dalam pengembangan teknologi otomatisasi yang lebih optimal untuk pengelolaan dan analisis data dari dokumen tidak terstruktur.

Kata kunci : Bi-LSTM, Ekstraksi Informasi, Struk Belanja, Literasi Keuangan.


Shopping receipt is a proof-of-purchase document received after a transaction. Receipts contain important information that is useful for tracking expenses and financial reporting. However, manually extracting information from receipts is prone to errors and time-consuming. This study aims to apply the Bidirectional Long-Short Term Memory (Bi-LSTM) method for information extraction from receipts. Bi-LSTM was chosen due to its ability to capture patterns in unstructured text through sequential analysis from both directions. The information extraction process involves several stages, starting with data collection from the CORD dataset (Consolidated Receipt Dataset for Post-OCR Parsing) and photos of receipts taken with a smartphone. The next steps include image preprocessing, text extraction using Optical Character Recognition (OCR), text preprocessing, labeling, and building the Bi-LSTM model through training, testing, and model evaluation using a confusion matrix. The results of the study show that the Bi-LSTM model developed achieved 95% accuracy, 95% precision, and 95% recall. This research is expected to contribute to the development of more optimal automation technology for the management and analysis of data from unstructured documents.

Keywords: Bi-LSTM, Information Extraction, Shopping Receipts, Financial Literacy.