Tutorial WEB Scraping Dengan Simple HTML DOM

Untuk yang membaca tutorial scraping web dengan simple html dom, mungkin sudah paham apa itu web scraping, bagi pemula web scraping adalah suatu teknik yang digunakan untuk mengumpulkan informasi atau data secara cepat dan mudah pada suatu website. Teknik web scraping memiliki banyak kegunaan dalam implementasinya, biasanya digunakan untuk keperluan auto blog post, cloning website, sampai riset pasar dan kompetitor.

Cara mudah untuk melakukan web scraping biasanya menggunakan suatu library yang khusus, cara ini bisa lebih mempersingkat penulisan kode dan lebih mudah memainkan logika saat akan mengambil data dari target dibandingkan dengan cara manual tanpa menggunakan library, pada tutorial web scraping ini kita akan menggunakan sebuah PHP Library bernama Simple HTML DOM dikarenakan kasus yang akan kita coba cukup sederhana, selain Simple HTML DOM ada juga library lain seperti Goutte, htmlSQL, cURL, Requests, HTTPful, Buzz dan Guzzle.

Pengenalan Simple HTML DOM

Ditulis menggunakan bahasa PHP5 +, menggunakan html dom parser yang memudahkan memilihan data pada html dan mendukung invalid html selain itu Simple HTML DOM juga memiliki lisensi MIT.

Contoh Penggunaan

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '
';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '
';

Studi Kasus

Agar lebih mudah memahami kita akan langsung mencobanya untuk melakukan scraping pada BacaKomik, pertama download terlebih dahulu PHP Simple HTML DOM lalu buatlah sebuah folder project web scraping kali dan copy kan file simple_html_dom.php yang sudah kita download tadi, lalu buat sebuah file dengan nama manga.php dan copy kode berikut dan simpan lalu coba buka dibrowser jika tidak ada error maka akan menampilkan sebuah list manga dari bacakomik.

Penjelasan

Pada kode diatas kita sudah bisa mengambil data manga terbaru dari bacakomik pada halaman utama dan menampilkannya kembali menjadi sebuah daftar judul sederhana, untuk bisa membuat view manganya kalian tinggal membuat file view.php dan ubah target urlnya dan sesuaikan juga element htmlnya.

Untuk mempelajari php simple html dom lebih lanjut silahkan baca dokumentasinya disana sudah terdapat berbagai macam contoh untuk keperluan web scraping sesuai keadaan yang dibutuhkan, selamat belajar.