Implementasi Web Scraping Pada Situs Berita Menggunakan Metode Supervised learning
Abstrak
Negara indonesia adalah salah satu pengguna internet tertinggi didunia termasuk dalam penetrasi informasi di internet media berita online. Namun pada umumnya situs berita tidak hanya menampilkan informasi berita saja, Kebanyakan situs juga menampilkan informasi-lain seperti iklan dan juga bentuk navigasi yang menggangu pembaca situs berita serta menggangu kenyamanan pembaca, dari permasalahan tersebut penelitian ini bertujuan dapat menerapkan teknik web scraping dengan metode supervised learning dan menganalisa bentuk DOM tree dan XPath situs berita. Metode pendekatan supervised learning adalah metode yang digunakan dalam penelitian ini, yang merupakan salah satu metode machine learning. Dengan digabungkannya teknik web scraping ini dengan pembelajaran supervised learning bertujuan agar dapat mengimplementasikan dan mengoptimalkan teknik web scraping untuk mengumpulkan informasi berita dari berbagai situs. Untuk melakukan web scraping dasar nya yaitu mengetahui pola DOM, sturuktur XPath sebagai data model atau selector di setiap situs. Hasil penelitian berupa aplikasi web scrap yang dapat mengambil konten situs berita tanpa copy paste dan data tersebut disimpan dalam database dan ditampilkan ke bentuk aplikasi user buat pembaca tanpa adanya iklan dan navigasi yang mengganggu pembaca.
Kata Kunci: web scraping, python, supervised learning, XPath, DOM tree.