Dataset Indonesia untuk Analisis Sentimen

  • Ridi Ferdiana Universitas Gadjah Mada
  • Fahim Jatmiko Microsoft Innovation Center
  • Desi Dwi Purwanti Universitas Gadjah Mada
  • Artmita Sekar Tri Ayu Universitas Gadjah Mada
  • Wiliam Fajar Dicka Universitas Gadjah Mada

Abstract

Makalah ini menyajikan sebuah dataset teks berbahasa Indonesia untuk digunakan di bidang analisis teks, terutama analisis sentimen. Dataset ini mencakup data utama, yaitu 10.806 baris data berbahasa Indonesia yang diambil dari media sosial Twitter, yang telah dikategorikan ke dalam tiga label, yaitu positif, negatif, dan netral, beserta 454.559 baris data yang masih bersifat mentah. Selain itu, pada data yang sudah dilabeli, data sudah mengalami proses pembersihan dari elemen-elemen pengganggu di dalam data, misalnya simbol atau tautan halaman web. Dalam makalah ini, data yang disajikan sudah diuji terlebih dahulu menggunakan sebuah model sentimen analisis sederhana untuk memastikan bahwa data ini sudah sesuai untuk digunakan dalam sebuah pemodelan analisis teks secara umum. Pengujian ini dilakukan dengan melihat hasil nilai ketepatan sebuah model analisis sentimen yang menggunakan dataset ini pada proses pelatihan dan membandingkannya dengan model analisis yang menggunakan dataset lain pada proses pelatihan datanya. Setelah dilakukan pengujian menggunakan model analisis sentimen sederhana yang menggunakan algoritme SVM, KNN, dan SGD, terlihat bahwa nilai ketepatan dari data utama dan data pembanding seimbang pada masing-masing algortime, dengan perbedaan nilai ketepatan berkisar pada angka 4% sampai 12%, dan membuktikan bahwa data yang disajikan sudah layak untuk digunakan dalam pemodelan analisis sentimen. Dataset dapat diunduh pada tautan di bagian kesimpulan.

References

[1] G. Vinodhini dan R. M. Chandrasekaran, "Sentiment Analysis and Opinion Mining: A Survey," Int. J. of Advanced Research in Computer Science and Software Engineering, Vol. 2, No. 6, hal. 282-292, 2012.
[2] M. Nabil, M. Aly, dan A.F. Atiya, "ATSD: Arabic Sentiment Tweets Dataset," Conf. on Empirical Methods in Natural Language Processings, 2015, hal. 2515–2519.
[3] T.A. Lee, D. Moeljadi, Y. Miura, dan T. Ohkuma, "Sentiment Analysis for Low Resource Languages: A Study on Informal Indonesian Tweets," Proc. 12th Workshop on Asian Language Resources, 2016, hal. 123-131.
[4] M.S. Saputri, R. Mahendra, dan M. Adriani, "Emotion Classification on Indonesian Twitter Dataset," Int. Conf. on Asian Language Processing, 2018, hal. 90-95.
[5] H. Wijaya, A. Erwin, A. Soetomo, dan M. Galinium, "Twitter Sentiment Analysis and Insight for Indonesian Mobile Operators," Information Systems Int. Conf., 2013, hal. 367-372.
[6] O. Somantri, "Text Mining Untuk Klasifikasi Kategori Cerita Pendek Menggunakan Naive-Bayes (NB)," Jurnal Telematika, Vol. 12, No. 1, hal. 7-12, 2017.
[7] Franky dan R. Manurung, "Machine Learning-based Sentiment Analysis of Automatic Indonesian Translations of English Movie Reviews," Proc. of the Int. Conf. on Advanced Computational Intelligence and Its Applications 2008 (ICACIA 2008), 2008, hal. 1-6.
[8] S.M. Mohammad, M. Salameh, F. Bravo-Marquez, dan S. Kiritchenko, "SemEval-2018 Task 1: Affects in Tweets," Proc. of the 12th Int. Workshop on Semantic Evaluation (SemEval-2018), 2018, hal. 1-17.
[9] E. Haddi, X. Liu, dan Y. Shi, "The Role of Text Pre-processing in Sentiment Analysis," Procedia Computer Science, Vol. 17, hal. 26-32, 2013.
[10] R.H. Mohammad dan A. Ahmad, "Sentiment Analysis on Twitter Data using KNN and SVM," Int. J. of Advanced Computer Science and Applications, Vol. 8, No. 6, hal. 19-25, 2017.
Published
2019-11-20
How to Cite
Ridi Ferdiana, Fahim Jatmiko, Desi Dwi Purwanti, Artmita Sekar Tri Ayu, & Wiliam Fajar Dicka. (2019). Dataset Indonesia untuk Analisis Sentimen. Jurnal Nasional Teknik Elektro Dan Teknologi Informasi, 8(4), 334-339. Retrieved from https://jurnal.ugm.ac.id/v3/JNTETI/article/view/2558
Section
Articles