Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Tinggalkan komentar

31 Maret 2012 oleh Rizky Zakaria

Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Web crawler adalah suatu program atau script otomatis yang relatif simple, yang menggunakan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Sebutan/julukan lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait  atau berhubungan langsung dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan dan sesuai dengan yang dicari.

Dan disini saya menggunakan software crawling bernama WIN WEB CRAWLER v.3.0 yang bisa didapatkan di www.winwebcrawler.com dengan TRIAL selama 15 hari. Mengapa saya memilih menggunakan Software trial tersebut sedangkan ada yang gratis. Pertama, karena fitur-fitur yang diberikan mudah untuk dipakai oleh orang awam seperti saya sehingga tidak perlu repot-repot untuk bertanya ke yang ahlinya. Kedua, kinerja yang dihasilkan sama seperti yang saya harapkan seperti software tersebut menyimpan hasil crawl menggunakan format txt, sedangkan yang lain masih menggunakan format kodingan yang harus dicompiler dan itu sangat menyulitkan user yang ingin memakainya. Cara pemakaiannya tidak terlalu sulit, caranya adalah:

Buka software WIN WEB CRAWLER v.3.0 dan HARUS TERKONEKSI DENGAN INTERNET:

Selanjutnya KLIK Menu (New):

Dibagian Menu (New) anda ingin memilih mengcrawl SEARCH ENGINES / WEBSITE, setelah itu masukkan Alamat WEB yang ingin dicrawl apabila anda ingin mengcrawl suatu website. Contohnya saya ingin mengcrawl website filehippo.com tempat download software. Lalu pilih “Save Data in csv Format” dan juga Extract URL, MetaTag (tittle, description, keyword, body) serta Extract External URL lalu pilih Save Base URL. Pada bagian EXTRACT URL:

Lalu pilih OK dan proses crawl akan berjalan, apabila anda ingin menstop proses yang sedang berjalan bisa saja.

Apabila sudah distop pilih Stop and Save Session Log (to restart later)

Dan ini hasil dari crawl web filehippo.com:

Dan dibawah ini hasil untuk MetaTag:

Dan dibawah ini hasil untuk URL:

Dan ini merupakan hasil dari Session Log:

Terdapat AllURLList:

Terdapat Session Log:

Sumber: http://www.asrizal.web.id/2010/09/apa-itu-web-crawler-web-spider-web.html#ixzz1qf0fldgt

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

Masukkan alamat surat elektronik Anda untuk mengikuti blog ini dan menerima pemberitahuan tentang tulisan baru melalui surat elektronik.

Bergabunglah dengan 1 pengikut lainnya

My Profile

Tanggal/Bulan/Tahun

Maret 2012
S S R K J S M
« Jan   Apr »
 1234
567891011
12131415161718
19202122232425
262728293031  

7zip (Alternatif Selain WinRAR)

RSS detiksepakbola

  • FIFA Umumkan 24 Kandidat Pemain Terbaik Dunia 2017 17 Agustus 2017
    FIFA telah mengumumkan 24 pemain yang menjadi kandidat Pemain Terbaik Dunia 2017. Selain Cristiano Ronaldo dan Lionel Messi, siapa lagi yang masuk di dalamnya?
  • Paulinho dan Rekrutan-Rekrutan Termahal Barcelona 15 Agustus 2017
    Rekrutan terbaru Barcelona, Paulinho, menjadi salah satu pemain termahal yang pernah dibeli Blaugrana. Siapa saja rekrutan mahal Barca lainnya?
  • Stadion-Stadion di Serie A 2017/2018 16 Agustus 2017
    Serie A 2017/2018 akan dipentaskan pada akhir pekan. Berikut stadion-stadion yang bakal jadi medan pertempuran dalam sengitnya persaingan berebut Scudetto.
  • Bahagia Madrid, Duka Barca 17 Agustus 2017
    Real Madrid berbahagia usai menjuarai Piala Super Spanyol. Sementara, Barcelona harus berduka karena kekalahan yang menyakitkan ini.
  • Gol Cepat Jadi Kunci Kemenangan Indonesia 17 Agustus 2017
    Indonesia berhasil mengalahkan Filipina di laga fase grup SEA Games 2017. Menurut Luis Milla, kunci kemenangan Indonesia adalah gol di menit-menit awal.

RSS File Hippo

  • BWMeter 7.3.3 17 Agustus 2017
    BWMeter is a powerful bandwidth meter, which encompasses a monitor, traffic controller and a firewall to display, measure and control all traffic to/from your computer or on your network. BWMeter has an edge on other apps which provide a simil...
  • PostgreSQL 9.6.4 16 Agustus 2017
    PostgreSQL is a powerful, open source object-relational database system. It has more than 15 years of active development and a proven architecture that has earned it a strong reputation for reliability, data integrity, and correctness. It is fully A...
  • Tweaking.com Windows Repair 4.0.3 16 Agustus 2017
    Sometimes you Windows installation can become corrupted due to a poorly installed apps or Malware, which can modify your settings resulting in your system becoming unstable and unusable. With Tweaking.com Windows Repair you can restore the original...
  • Firefox 56.0 Beta 3 16 Agustus 2017
    Mozilla Firefox is a fast, light and tidy open source web browser. At its public launch in 2004 Mozilla Firefox was the first browser to challenge Microsoft Internet Explorer’s dominance. Since then, Mozilla Firefox has consistently featured in the t...
  • Privacy Eraser Free 4.27.2.2374 16 Agustus 2017
    Privacy Eraser Free has been designed to help you achieve the most secure digital life that you can, by cleaning not only your Internet history and downloads, but also wiping your drives clean and deleting your data beyond recovery. Key Feature...

RSS detikInet

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.

RSS detikOto

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.
%d blogger menyukai ini: