Un robot web(Web crawler, Web spider, Web robot, sau, în comunitatea FOAF, Web scutter) este un program sau script automat care scrutează World Wide Web metodic, automat. Alte nume mai puţin uzuale sunt ante-uri, indexori atutomat, boturi, sau viermi (ants, automatic indexers, bots, worms) (Kobayashi, M. and Takeda, K. (2000). "Information retrieval on the web". ACM Computing Surveys (ACM Press) 32 (2): 144–173. doi:10.1145/358923.358934.).
Procesul este denumit Web crawling sau spidering. Multe situri, în special motoarele de căutare, folosesc spidering pentru a-şi actualiza datele. Roboţii web sunt folosiţi în principal pentru a crea copii ale tuturor paginilor vizitate pentru procesarea ulterioară de către motoarele de căutare care le indexează pentru a oferi o căutare rapidă. Roboţii pot fi de asemenea folosiţi pentru întreţinerea automată a sitului web, precum în verificarea linkurilor sau validarea codurilor HTML. De asemenea, roboţii pot fi folosiţi pentru a obţine anumite tipuri specifice de informaţii din paginile web, precum extragerea adreselor de email (folosite de obicei pentru spam). Un robot este un tip de bot, sau agent software. În general, el foloseşte o listă de URL-uri pentru vizite, denumite grăunţi (seeds). În vizitele sale pe aceste URL-uri, robotul identifică toate hiperlinkurile din pagini şi le adaugă la lista de URL.uri de vizitat, denumită front de lucru (crawl frontier). URL-urile din frontul de lucru sunt revizitate periodic în funcţie de un set de politici.
Cho, J., Garcia-Molina, H., and Page, L. (1998). "Efficient crawling through URL ordering". In Proceedings of the seventh conference on World Wide Web (Brisbane, Australia).
Cho, J. and Garcia-Molina, H. (2000). Synchronizing a database to improve freshness. In Proceedings of ACM International Conference on Management of Data (SIGMOD), pages 117-128, Dallas, Texas, USA.
Cho, J. and Garcia-Molina, H. (2002). Parallel crawlers. In Proceedings of the eleventh international conference on World Wide Web, pages 124–135, Honolulu, Hawaii, USA. ACM Press.
Nelson, M. L. , Van de Sompel, H. , Liu, X., Harrison, T. L. and McFarland, N. (2005). "mod_oai: An Apache module for metadata harvesting". In Proceedings of the 9th European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2005): 509.
Pant, G., Srinivasan, P., Menczer, F. (2004). "Crawling the Web" (PDF). Web Dynamics: Adapting to Change in Content, Size, Topology and Use, edited by M. Levene and A. Poulovassilis: 153-178.
da Silva, A. S., Veloso, E. A., Golgher, P. B., Ribeiro-Neto, B. A., Laender, A. H. F., and Ziviani, N. (1999). Cobweb – a crawler for the Brazilian web. In Proceedings of String Processing and Information Retrieval (SPIRE), pages 184–191, Cancun, Mexico. IEEE CS Press.
Yibei Ling and Jie Mi, An optimal trade-off between content freshness and refresh cost, Journal of applied probability, 2004, vol. 41, no3, pp. 721-734.
(Traducere şi adaptare din Wikipedia sub licenţa GNU de NS) Video: Lecture -38 Search Engine And Web Crawler - Part-I