Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Tinggalkan komentar

31 Maret 2012 oleh Rizky Zakaria

Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Web crawler adalah suatu program atau script otomatis yang relatif simple, yang menggunakan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Sebutan/julukan lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait  atau berhubungan langsung dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan dan sesuai dengan yang dicari.

Dan disini saya menggunakan software crawling bernama WIN WEB CRAWLER v.3.0 yang bisa didapatkan di www.winwebcrawler.com dengan TRIAL selama 15 hari. Mengapa saya memilih menggunakan Software trial tersebut sedangkan ada yang gratis. Pertama, karena fitur-fitur yang diberikan mudah untuk dipakai oleh orang awam seperti saya sehingga tidak perlu repot-repot untuk bertanya ke yang ahlinya. Kedua, kinerja yang dihasilkan sama seperti yang saya harapkan seperti software tersebut menyimpan hasil crawl menggunakan format txt, sedangkan yang lain masih menggunakan format kodingan yang harus dicompiler dan itu sangat menyulitkan user yang ingin memakainya. Cara pemakaiannya tidak terlalu sulit, caranya adalah:

Buka software WIN WEB CRAWLER v.3.0 dan HARUS TERKONEKSI DENGAN INTERNET:

Selanjutnya KLIK Menu (New):

Dibagian Menu (New) anda ingin memilih mengcrawl SEARCH ENGINES / WEBSITE, setelah itu masukkan Alamat WEB yang ingin dicrawl apabila anda ingin mengcrawl suatu website. Contohnya saya ingin mengcrawl website filehippo.com tempat download software. Lalu pilih “Save Data in csv Format” dan juga Extract URL, MetaTag (tittle, description, keyword, body) serta Extract External URL lalu pilih Save Base URL. Pada bagian EXTRACT URL:

Lalu pilih OK dan proses crawl akan berjalan, apabila anda ingin menstop proses yang sedang berjalan bisa saja.

Apabila sudah distop pilih Stop and Save Session Log (to restart later)

Dan ini hasil dari crawl web filehippo.com:

Dan dibawah ini hasil untuk MetaTag:

Dan dibawah ini hasil untuk URL:

Dan ini merupakan hasil dari Session Log:

Terdapat AllURLList:

Terdapat Session Log:

Sumber: http://www.asrizal.web.id/2010/09/apa-itu-web-crawler-web-spider-web.html#ixzz1qf0fldgt

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

Masukkan alamat surat elektronik Anda untuk mengikuti blog ini dan menerima pemberitahuan tentang tulisan baru melalui surat elektronik.

Bergabunglah dengan 1 pengikut lainnya

My Profile

Tanggal/Bulan/Tahun

Maret 2012
S S R K J S M
« Jan   Apr »
 1234
567891011
12131415161718
19202122232425
262728293031  

7zip (Alternatif Selain WinRAR)

RSS detiksepakbola

RSS File Hippo

  • Spotify 1.0.44.100 9 Desember 2016
    With Spotify, it’s easy to find the right music for every moment – on your phone, your computer, your tablet and more. There are millions of tracks on Spotify. So whether you’re working out, partying or relaxing, the right music is always at your fi...
  • StressMyPC 2.91 9 Desember 2016
    If you need to test your computer's performance to ensure it is running at optimal capacity, then it is a good idea to run a stress test and analyze the results. StressMyPC is a small, lightweight and useful tool for the job. It actually does not req...
  • Calibre 2.74.0 64-bit 9 Desember 2016
    Calibre is a complete e-book library manager that lets you totally organize your collection. With Calibre you can convert your books to multiple formats, and then sync with all of your devices. KEY FEATURES INCLUDE: Library management. Calibre ...
  • Calibre 2.74.0 32-bit 9 Desember 2016
    Calibre is a complete e-book library manager that lets you totally organize your collection. With Calibre you can convert your books to multiple formats, and then sync with all of your devices. KEY FEATURES INCLUDE: Library management. Calibre...
  • LastPass: Free Password Manager 4.1.34 9 Desember 2016
    LastPass is an award-winning password manager that can save your passwords and provide you with secure access from every computer and mobile device you have. With LastPass you need only remember one password - your LastPass master password. With t...

RSS detikInet

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.

RSS detikOto

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.
%d blogger menyukai ini: