搜索引擎爬虫介绍
原文链接:搜索引擎爬虫介绍
1、爬虫(crawler)是什么
搜索引擎爬虫是一组计算机程序,在搜索引擎系统中负责抓取新的、 公共可访问的web网页、图片和文档资源。常见商用搜索引擎爬虫名称有:Google爬虫名称Googlebot(从Google的网站索引和新闻索引中抓取网页)、百度(Baidu)爬虫:Baiduspider、搜狗(sogou)爬虫:sogouspider、腾讯soso爬虫:Sosospider、有道(Yodao)蜘蛛名称YodaoBot等等。
2、爬虫的种类
A 增量型爬虫(Incremental Crawler),通用商业搜索引擎爬虫基本属于此类。保持对网页不断地抓取,对于已经抓取到的网页要定期更新。
B 批量型爬虫(Batch Crawler),有比较明确的抓取范围和目标,当爬虫达到这个目标以后,即停止抓取。
C 垂直型爬虫 (Focused Crawler) ,只关注特定主题内容或者属于特定行业的网页。
分布式爬虫:对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。一个大型分布式爬虫由3个层级组成:分布式数据中心、分布式抓取服务器、分布式爬虫程序;常见的分布式爬虫由两种架构:主从分布爬虫(Master-Slave)和对等分布爬虫(Peer to Peer)。
主从分布爬虫(Master-Slave),不同的服务器承担不同的角色分工,其中有一台专门负责对其他服务器提供URL分发服务,其他机器则进行实际网页下载。Google早期采用此种主从式分布爬虫,但URL服务器承担很多管理分发任务,当待抓取URL队列数量巨大时,URL服务器容易成为整个系统的瓶颈。
对等分布爬虫(Peer to Peer),服务器之间不存在分工差异,每台服务器承担相同的功能,各自负担一部分URL抓取工作。任务分工是面临的主要问题。对网站主域名进行哈希计算,之后取模,如果计算所得的值和抓取服务器编号匹配,则此服务器下载此网页,否则转发给对应编号的抓取服务器。
3、搜索引擎爬虫特性
A 高性能:指爬虫下载网页的抓取速度,单位时间内能够下载的网页数量越多,则爬虫的性能越好。
B 可扩展性:面对海量的网页,能够通过增加抓取服务器和爬虫数量来满足要求。
C 健壮性:面对各种要访问的网站服务器,可能会遇到多种非正常的情况,爬虫应该能够正确处理各种异常情况。例如,网页HTML编码不规范,网站服务器宕机等,或者爬虫服务器宕机等。当爬虫突然在抓取过程中死掉,再次启动爬虫时,能够恢复之前的内容和数据结构,而不是每次需要把所有工作从头做起。
D 友好性:遵守robot.txt协议。保证网站私密性,减少被抓取网站的网络负载。
4、爬虫质量的评价标准
A 抓取网页覆盖率,爬虫抓取的网页数量占互联网所有网页数量的比例。(即召回率越高越好)
B 抓取网页时新率,网页很可能处于不断变化之中,有的更新,有的删除。保证时新率能够保证网页在变化后的第一时间反映到网页库中,而过期和失效的数据就会越少,用户访问到的东西越新。
C 抓取网页重要性,重要性越高,说明网页质量越好,越能满足用户的搜索需求。(即搜索精度越好
1、爬虫(crawler)是什么
搜索引擎爬虫是一组计算机程序,在搜索引擎系统中负责抓取新的、 公共可访问的web网页、图片和文档资源。常见商用搜索引擎爬虫名称有:Google爬虫名称Googlebot(从Google的网站索引和新闻索引中抓取网页)、百度(Baidu)爬虫:Baiduspider、搜狗(sogou)爬虫:sogouspider、腾讯soso爬虫:Sosospider、有道(Yodao)蜘蛛名称YodaoBot等等。
2、爬虫的种类
A 增量型爬虫(Incremental Crawler),通用商业搜索引擎爬虫基本属于此类。保持对网页不断地抓取,对于已经抓取到的网页要定期更新。
B 批量型爬虫(Batch Crawler),有比较明确的抓取范围和目标,当爬虫达到这个目标以后,即停止抓取。
C 垂直型爬虫 (Focused Crawler) ,只关注特定主题内容或者属于特定行业的网页。
分布式爬虫:对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。一个大型分布式爬虫由3个层级组成:分布式数据中心、分布式抓取服务器、分布式爬虫程序;常见的分布式爬虫由两种架构:主从分布爬虫(Master-Slave)和对等分布爬虫(Peer to Peer)。
主从分布爬虫(Master-Slave),不同的服务器承担不同的角色分工,其中有一台专门负责对其他服务器提供URL分发服务,其他机器则进行实际网页下载。Google早期采用此种主从式分布爬虫,但URL服务器承担很多管理分发任务,当待抓取URL队列数量巨大时,URL服务器容易成为整个系统的瓶颈。
对等分布爬虫(Peer to Peer),服务器之间不存在分工差异,每台服务器承担相同的功能,各自负担一部分URL抓取工作。任务分工是面临的主要问题。对网站主域名进行哈希计算,之后取模,如果计算所得的值和抓取服务器编号匹配,则此服务器下载此网页,否则转发给对应编号的抓取服务器。
3、搜索引擎爬虫特性
A 高性能:指爬虫下载网页的抓取速度,单位时间内能够下载的网页数量越多,则爬虫的性能越好。
B 可扩展性:面对海量的网页,能够通过增加抓取服务器和爬虫数量来满足要求。
C 健壮性:面对各种要访问的网站服务器,可能会遇到多种非正常的情况,爬虫应该能够正确处理各种异常情况。例如,网页HTML编码不规范,网站服务器宕机等,或者爬虫服务器宕机等。当爬虫突然在抓取过程中死掉,再次启动爬虫时,能够恢复之前的内容和数据结构,而不是每次需要把所有工作从头做起。
D 友好性:遵守robot.txt协议。保证网站私密性,减少被抓取网站的网络负载。
4、爬虫质量的评价标准
A 抓取网页覆盖率,爬虫抓取的网页数量占互联网所有网页数量的比例。(即召回率越高越好)
B 抓取网页时新率,网页很可能处于不断变化之中,有的更新,有的删除。保证时新率能够保证网页在变化后的第一时间反映到网页库中,而过期和失效的数据就会越少,用户访问到的东西越新。
C 抓取网页重要性,重要性越高,说明网页质量越好,越能满足用户的搜索需求。(即搜索精度越好
> 我来回应