Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Tinggalkan komentar

31 Maret 2012 oleh Rizky Zakaria

Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Web crawler adalah suatu program atau script otomatis yang relatif simple, yang menggunakan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Sebutan/julukan lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait  atau berhubungan langsung dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan dan sesuai dengan yang dicari.

Dan disini saya menggunakan software crawling bernama WIN WEB CRAWLER v.3.0 yang bisa didapatkan di www.winwebcrawler.com dengan TRIAL selama 15 hari. Mengapa saya memilih menggunakan Software trial tersebut sedangkan ada yang gratis. Pertama, karena fitur-fitur yang diberikan mudah untuk dipakai oleh orang awam seperti saya sehingga tidak perlu repot-repot untuk bertanya ke yang ahlinya. Kedua, kinerja yang dihasilkan sama seperti yang saya harapkan seperti software tersebut menyimpan hasil crawl menggunakan format txt, sedangkan yang lain masih menggunakan format kodingan yang harus dicompiler dan itu sangat menyulitkan user yang ingin memakainya. Cara pemakaiannya tidak terlalu sulit, caranya adalah:

Buka software WIN WEB CRAWLER v.3.0 dan HARUS TERKONEKSI DENGAN INTERNET:

Selanjutnya KLIK Menu (New):

Dibagian Menu (New) anda ingin memilih mengcrawl SEARCH ENGINES / WEBSITE, setelah itu masukkan Alamat WEB yang ingin dicrawl apabila anda ingin mengcrawl suatu website. Contohnya saya ingin mengcrawl website filehippo.com tempat download software. Lalu pilih “Save Data in csv Format” dan juga Extract URL, MetaTag (tittle, description, keyword, body) serta Extract External URL lalu pilih Save Base URL. Pada bagian EXTRACT URL:

Lalu pilih OK dan proses crawl akan berjalan, apabila anda ingin menstop proses yang sedang berjalan bisa saja.

Apabila sudah distop pilih Stop and Save Session Log (to restart later)

Dan ini hasil dari crawl web filehippo.com:

Dan dibawah ini hasil untuk MetaTag:

Dan dibawah ini hasil untuk URL:

Dan ini merupakan hasil dari Session Log:

Terdapat AllURLList:

Terdapat Session Log:

Sumber: http://www.asrizal.web.id/2010/09/apa-itu-web-crawler-web-spider-web.html#ixzz1qf0fldgt

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google+

You are commenting using your Google+ account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

w

Connecting to %s

Masukkan alamat surat elektronik Anda untuk mengikuti blog ini dan menerima pemberitahuan tentang tulisan baru melalui surat elektronik.

Bergabunglah dengan 1 pengikut lainnya

My Profile

Tanggal/Bulan/Tahun

Maret 2012
S S R K J S M
« Jan   Apr »
 1234
567891011
12131415161718
19202122232425
262728293031  

7zip (Alternatif Selain WinRAR)

RSS detiksepakbola

RSS File Hippo

  • Firefox 60.0 Beta 15 24 April 2018
    Mozilla Firefox is a fast, light and tidy open source web browser. At its public launch in 2004 Mozilla Firefox was the first browser to challenge Microsoft Internet Explorer’s dominance. Since then, Mozilla Firefox has consistently featured in the t...
  • Origin 10.5.17.52805 24 April 2018
    Origin lets you purchase and play EA games - any time and any place you want. With the in-game overlay, you can browse the web while playing select games. Origin's social features allow you to create a profile, connect and chat with your friends, sh...
  • Ace Utilities 6.3.0 24 April 2018
    Ace Utilities is a collection of tools to optimize and speedup your system performance. It contains utilities to clean the system registry, temporary files on your disks, erase unwanted applications and clear your Internet browser history, cache, a...
  • Deep Freeze Standard 8.38 24 April 2018
    Deep Freeze, as the name suggests is software designed to 'freeze' your system so that no matter what changes occur, they aren't permanent and can be reversed at the click of a button. Deep Freeze is a good choice for a variety of PC problems....
  • GeoGebra 6.0.458.0 24 April 2018
    GeoGebra is a free dynamic mathematics software tool for all levels of advanced education. The application combines geometry, algebra, spreadsheets, graphing, statistics and calculus and bundles them into one easy-to-use package. Users can use G...

RSS detikInet

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.

RSS detikOto

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.
%d blogger menyukai ini: