十、《搜索的思想》——URL地址库
一、URL地址库
为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。
地址库中的 URL 有几个来源。
1. 一是人工录入的种子网站(比如hao123就是一个好的种子网站)。
2. 二是蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL,与地址库中的数据对比,如果是地址库中没有的网址,就存入待访问地址库。
3. 三是站长通过搜索引擎网页提交表格提交进来的网址。
蜘蛛按重要性从待访问地址库中提取 URL,访问并抓取页面,然后把这个 URL 从待访问地址库中删除,放进已访问地址库中。
大部分主流搜索引擎都提供一个URL提交入口,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。
二、做内链接和外链接的比例问题
网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url, 所有解决这个问题的有效方法是,使用两个数据表 分别为unvisited_table和visited_table。前者包含尚未访问的url,后者记录已访问的url。系统首先将要搜集的种子url放入unvisited_table,然后 spider从其中获取要搜集网页的url,搜集过的网页url放入visited_table中,新解析出的并且不在visited_table中的url加入unvisited_table,读完这个算法后,如果我们做了一个网站,想要增加网站页面的收录我们应该如何导入链接给我们的页面。
根据以上算法,和URL地址库的分析,我们不难推断出,我们做内链接和外链接的时候一定要注意比例的问题,不要都指向首页,很多朋友就经常用这种错误的优化方法,假如搜索引擎的抓取的过程一维的 从A来,A指向B,B指向C,A—B—C,如果它发现B已经抓取过了,那么就有可能倒致C不会被发现和抓取了,所以我们可以做内链接和外链接的时候采用2:2:1的比例,另外我在上一篇文章还提到了一个空间点击距离的问题,如果你非常想让你的某一页面被收录,就直接给它做链接最好,比如发外链的时候就可以这样做,好了这篇文章我就写到这里,原理都说的很明白了至于可以推理出来的优化方法会有很多就看你们的理解分析程度了,我也只能引路到这里了。
为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。
地址库中的 URL 有几个来源。
1. 一是人工录入的种子网站(比如hao123就是一个好的种子网站)。
2. 二是蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL,与地址库中的数据对比,如果是地址库中没有的网址,就存入待访问地址库。
3. 三是站长通过搜索引擎网页提交表格提交进来的网址。
蜘蛛按重要性从待访问地址库中提取 URL,访问并抓取页面,然后把这个 URL 从待访问地址库中删除,放进已访问地址库中。
大部分主流搜索引擎都提供一个URL提交入口,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。
二、做内链接和外链接的比例问题
网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url, 所有解决这个问题的有效方法是,使用两个数据表 分别为unvisited_table和visited_table。前者包含尚未访问的url,后者记录已访问的url。系统首先将要搜集的种子url放入unvisited_table,然后 spider从其中获取要搜集网页的url,搜集过的网页url放入visited_table中,新解析出的并且不在visited_table中的url加入unvisited_table,读完这个算法后,如果我们做了一个网站,想要增加网站页面的收录我们应该如何导入链接给我们的页面。
根据以上算法,和URL地址库的分析,我们不难推断出,我们做内链接和外链接的时候一定要注意比例的问题,不要都指向首页,很多朋友就经常用这种错误的优化方法,假如搜索引擎的抓取的过程一维的 从A来,A指向B,B指向C,A—B—C,如果它发现B已经抓取过了,那么就有可能倒致C不会被发现和抓取了,所以我们可以做内链接和外链接的时候采用2:2:1的比例,另外我在上一篇文章还提到了一个空间点击距离的问题,如果你非常想让你的某一页面被收录,就直接给它做链接最好,比如发外链的时候就可以这样做,好了这篇文章我就写到这里,原理都说的很明白了至于可以推理出来的优化方法会有很多就看你们的理解分析程度了,我也只能引路到这里了。
![]() |
还没人转发这篇日记