Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Tinggalkan komentar

31 Maret 2012 oleh Rizky Zakaria

Mengcrawl Web FileHippo Menggunakan Win Web Crawler v.3.0

Web crawler adalah suatu program atau script otomatis yang relatif simple, yang menggunakan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Sebutan/julukan lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait  atau berhubungan langsung dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan dan sesuai dengan yang dicari.

Dan disini saya menggunakan software crawling bernama WIN WEB CRAWLER v.3.0 yang bisa didapatkan di www.winwebcrawler.com dengan TRIAL selama 15 hari. Mengapa saya memilih menggunakan Software trial tersebut sedangkan ada yang gratis. Pertama, karena fitur-fitur yang diberikan mudah untuk dipakai oleh orang awam seperti saya sehingga tidak perlu repot-repot untuk bertanya ke yang ahlinya. Kedua, kinerja yang dihasilkan sama seperti yang saya harapkan seperti software tersebut menyimpan hasil crawl menggunakan format txt, sedangkan yang lain masih menggunakan format kodingan yang harus dicompiler dan itu sangat menyulitkan user yang ingin memakainya. Cara pemakaiannya tidak terlalu sulit, caranya adalah:

Buka software WIN WEB CRAWLER v.3.0 dan HARUS TERKONEKSI DENGAN INTERNET:

Selanjutnya KLIK Menu (New):

Dibagian Menu (New) anda ingin memilih mengcrawl SEARCH ENGINES / WEBSITE, setelah itu masukkan Alamat WEB yang ingin dicrawl apabila anda ingin mengcrawl suatu website. Contohnya saya ingin mengcrawl website filehippo.com tempat download software. Lalu pilih “Save Data in csv Format” dan juga Extract URL, MetaTag (tittle, description, keyword, body) serta Extract External URL lalu pilih Save Base URL. Pada bagian EXTRACT URL:

Lalu pilih OK dan proses crawl akan berjalan, apabila anda ingin menstop proses yang sedang berjalan bisa saja.

Apabila sudah distop pilih Stop and Save Session Log (to restart later)

Dan ini hasil dari crawl web filehippo.com:

Dan dibawah ini hasil untuk MetaTag:

Dan dibawah ini hasil untuk URL:

Dan ini merupakan hasil dari Session Log:

Terdapat AllURLList:

Terdapat Session Log:

Sumber: http://www.asrizal.web.id/2010/09/apa-itu-web-crawler-web-spider-web.html#ixzz1qf0fldgt

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

Masukkan alamat surat elektronik Anda untuk mengikuti blog ini dan menerima pemberitahuan tentang tulisan baru melalui surat elektronik.

Bergabunglah dengan 1 pengikut lainnya

My Profile

Tanggal/Bulan/Tahun

Maret 2012
S S R K J S M
« Jan   Apr »
 1234
567891011
12131415161718
19202122232425
262728293031  

7zip (Alternatif Selain WinRAR)

RSS detiksepakbola

RSS File Hippo

  • Save To Pocket 2.1.48 19 Oktober 2017
    The Save to Pocket Extension for Chrome is one of the best ways to save articles, videos and other important content. Using the extension is really easy; when you find something in Chrome that you want to view later, put it in Pocket! The Save to Poc...
  • SaferPass 6.3.3 19 Oktober 2017
    SaferPass Password Manager makes life easy by ensuring you never forget another password! With SaferPass you have the ability to generate strong password, which you don't have to remember. SaferPass is able to secure your online accounts and aut...
  • Google Translate 2.0.7 19 Oktober 2017
    The Google Translate extension will allow you to view numerous languages easily as you browse the web. Simply highlight or right-click on a portion of text and then click on Translate icon next to it to translate it to the language that you need. If ...
  • Google Calendar 2.8 19 Oktober 2017
    If you use Google's Chrome browser and you use Google's Calendar then, quite simply, you need to install the free Google Calendar extension for Chrome. With the Google Calendar extension installed, you will be able to access your Google Calendar ap...
  • Notepad3 2.17.1016.610 19 Oktober 2017
    Notepad3 is a revamp of the standard, vanilla offering Windows Notepad that comes with Microsoft’s operating system. Notepad3 is a fast and lightweight Scintilla-based text editor with syntax highlighting capability. Although it has a small footpri...

RSS detikInet

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.

RSS detikOto

  • Sebuah galat telah terjadi; umpan tersebut kemungkinan sedang anjlok. Coba lagi nanti.
%d blogger menyukai ini: