Implementasi Web Scraping Pada Situs Berita Menggunakan Metode Supervised learning

Penulis

  • Edwin Hari Agus Prastyo Teknik Informatika, Fakultas Teknologi Informasi, Universitas Hasyim Asy’ari
  • IGL Putra Eka Prismana Teknik Informatika, Fakultas Teknologi Informasi, Universitas Hasyim Asy’ari
  • Radityo Wiratsongko Teknik Informatika, Fakultas Teknologi Informasi, Universitas Hasyim Asy’ari

Abstrak

Negara indonesia adalah salah satu pengguna internet tertinggi didunia termasuk dalam penetrasi informasi di internet media berita online. Namun pada umumnya situs berita tidak hanya menampilkan informasi berita saja, Kebanyakan situs juga menampilkan informasi-lain seperti iklan dan  juga bentuk navigasi yang menggangu pembaca situs berita serta menggangu kenyamanan pembaca, dari permasalahan tersebut penelitian ini bertujuan dapat menerapkan teknik web scraping dengan metode supervised learning dan menganalisa bentuk DOM tree dan XPath situs berita. Metode pendekatan supervised learning adalah metode yang digunakan dalam penelitian ini, yang merupakan salah satu metode machine learning. Dengan digabungkannya teknik web scraping ini dengan pembelajaran supervised learning bertujuan agar dapat mengimplementasikan dan mengoptimalkan teknik web scraping untuk mengumpulkan informasi berita dari berbagai situs. Untuk melakukan web scraping dasar nya yaitu mengetahui pola DOM, sturuktur XPath sebagai data model atau selector di setiap situs. Hasil penelitian berupa aplikasi web scrap yang dapat mengambil konten situs berita tanpa copy paste dan data tersebut disimpan dalam database dan ditampilkan ke bentuk aplikasi user buat pembaca tanpa adanya iklan dan navigasi yang mengganggu pembaca.

Kata Kunci: web scraping, python, supervised learning, XPath, DOM tree.

Unduhan

Data unduhan belum tersedia.

Unduhan

Diterbitkan

2020-09-10