快速注册

搜索引擎爬虫介绍

哲学工作室 2012-10-14 19:27:08

原文链接：搜索引擎爬虫介绍
1、爬虫(crawler)是什么
     搜索引擎爬虫是一组计算机程序，在搜索引擎系统中负责抓取新的、公共可访问的web网页、图片和文档资源。常见商用搜索引擎爬虫名称有：Google爬虫名称Googlebot（从Google的网站索引和新闻索引中抓取网页）、百度（Baidu）爬虫：Baiduspider、搜狗（sogou）爬虫：sogouspider、腾讯soso爬虫：Sosospider、有道（Yodao）蜘蛛名称YodaoBot等等。
2、爬虫的种类

   A 增量型爬虫（Incremental Crawler）,通用商业搜索引擎爬虫基本属于此类。保持对网页不断地抓取，对于已经抓取到的网页要定期更新。
   B 批量型爬虫（Batch Crawler）,有比较明确的抓取范围和目标，当爬虫达到这个目标以后，即停止抓取。
   C 垂直型爬虫（Focused Crawler） ,只关注特定主题内容或者属于特定行业的网页。

分布式爬虫：对于商业搜索引擎来说，分布式爬虫架构是必须采用的技术。一个大型分布式爬虫由3个层级组成：分布式数据中心、分布式抓取服务器、分布式爬虫程序；常见的分布式爬虫由两种架构：主从分布爬虫（Master-Slave）和对等分布爬虫（Peer to Peer）。

     主从分布爬虫（Master-Slave）,不同的服务器承担不同的角色分工，其中有一台专门负责对其他服务器提供URL分发服务，其他机器则进行实际网页下载。Google早期采用此种主从式分布爬虫，但URL服务器承担很多管理分发任务，当待抓取URL队列数量巨大时，URL服务器容易成为整个系统的瓶颈。

     对等分布爬虫（Peer to Peer），服务器之间不存在分工差异，每台服务器承担相同的功能，各自负担一部分URL抓取工作。任务分工是面临的主要问题。对网站主域名进行哈希计算，之后取模，如果计算所得的值和抓取服务器编号匹配，则此服务器下载此网页，否则转发给对应编号的抓取服务器。

3、搜索引擎爬虫特性

A 高性能：指爬虫下载网页的抓取速度，单位时间内能够下载的网页数量越多，则爬虫的性能越好。
B 可扩展性：面对海量的网页，能够通过增加抓取服务器和爬虫数量来满足要求。
C 健壮性：面对各种要访问的网站服务器，可能会遇到多种非正常的情况，爬虫应该能够正确处理各种异常情况。例如，网页HTML编码不规范，网站服务器宕机等，或者爬虫服务器宕机等。当爬虫突然在抓取过程中死掉，再次启动爬虫时，能够恢复之前的内容和数据结构，而不是每次需要把所有工作从头做起。
D 友好性：遵守robot.txt协议。保证网站私密性，减少被抓取网站的网络负载。

4、爬虫质量的评价标准

A 抓取网页覆盖率，爬虫抓取的网页数量占互联网所有网页数量的比例。（即召回率越高越好）
B 抓取网页时新率，网页很可能处于不断变化之中，有的更新，有的删除。保证时新率能够保证网页在变化后的第一时间反映到网页库中，而过期和失效的数据就会越少，用户访问到的东西越新。
C 抓取网页重要性，重要性越高，说明网页质量越好，越能满足用户的搜索需求。（即搜索精度越好

回应转发赞收藏

> 我来回应

哲学工作室 (北京)

80后，四川人，非典型性具有工科思维的文科男，互联网产品新人.信奉哲学...

搜索引擎爬虫介绍

热门话题 · · · · · · ( 去话题广场 )