Web crawler adalah suatu program atau
script otomat yang relatif simple, yang dengan metode tertentu melakukan scan
atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data
yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot,
crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum
adalah yang terkait dengan search engine. Search engine menggunakan web crawl
untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web
publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna
Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan
segera menampilkan web site yang relevan.
CONTOH WEB CRAWLER
Beberapa contoh web crawler:
1. Teleport
Pro
Salah satu software web crawler untuk
keperluan offline browsing. Software ini sudah cukup lama popular, terutama
pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini
berbayar dan beralamatkan di http://www.tenmax.com.
2. HTTrack
Ditulis dengan menggunakan C,
seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload
konten website menjadi sebuah mirror pada harddisk anda, agar
dapat dilihat secara offline. Yang menarik software ini free dan dapat di
download pada website resminya di http://www.httrack.com
3. Googlebot
Merupakan web crawler untuk
membangun index pencarian yang digunakan oleh search engine Google.
Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa
dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan
tersita karena proses crawling ini.
4. Yahoo!Slurp
Kalau Googlebot adalah web
crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp.
Teknologinya dikembangkan oleh Inktomi Corporation yang
diakuisisi oleh Yahoo!.
5. YaCy
Sedikit berbeda dengan web crawler lainnya
di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop
dengan menggunakan java, dan didistribusikan pada beberapa ratus
mesin computer (disebut YaCy peers). Tiap-tiap peer di share
dengan prinsip P2P untuk berbagi index, sehingga tidak
memerlukan server central. Contoh search engine yang menggunakan YaCy adalah
Sciencenet (http://sciencenet.fzk.de),
untuk pencarian dokumen di bidang sains.
CARA KERJA
WEB CRAWLER
1. Mesin
pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman
web, yang diambil langsung dari WWW. Halaman-halaman ini diambil
dengan web crawler — browser web otomatis yang
mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis
untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul,
subjudul, atau field khusus yang disebut meta tag). Data
tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam
pencarian selanjutnya.
2.
Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian
berupa pranala yang merujuk pada file, seperti file audio, file
video, gambar, foto dan sebagainya.
3. Ketika
seorang pengguna mengunjungi mesin pencari dan memasukkan query,
biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan
daftar halaman web yang paling sesuai dengan kriterianya.
Sumber :
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://www.bum1.info/2012/03/daftar-web-crawler.html#ixzz2PsQXx5xr
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
Sumber :
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://www.bum1.info/2012/03/daftar-web-crawler.html#ixzz2PsQXx5xr
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
Tidak ada komentar:
Posting Komentar