搜索引擎的蜘蛛抓取网页有规律吗?如果蜘蛛胡乱地去抓取网页,那么就费劲了,互联网上的网页,每天都增加那么那么多,蜘蛛怎么可以抓取得过来呢?所以说,蜘蛛抓取网页也是有规律的。
蜘蛛抓取网页策略1:深度优先
什么是深度优先?简单地说,就是搜索引擎蜘蛛在一个页面发现一个链接然后顺着这个链接爬下去,然后在下一个页面又发现一个链接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。
我们假如网页A在搜索引擎中的权威度是最高的,假如D网页的权威是最低的,如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高,这就是深度优先!
蜘蛛抓取网页策略2:宽度优先
宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后再抓取下一个页面的全部链接。
宽度优先其实也就是大家平时所说的扁平化结构,大家或许在某个神秘的角落看到一篇文章,告诫大家,网页的层度不能太多,如果太多会导致收录很难,所以搜索引擎蜘蛛的宽度优先策略,其实就是这个原因。
蜘蛛抓取网页策略3:权重优先
搜索引擎蜘蛛一般都是上述两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条链接的权重,如果说这条链接的权重还不错,那么就采用深度优先,如果说这条链接的权重很低,那么就采用宽度优先!
那么搜索引擎蜘蛛怎样知道这条链接的权重呢?这里有两个因素:1.层次的多与少;2.这个链接的外链多少与质量。那么如果层级太多的链接是不是就不会被抓取呢?这也不是绝对的,这里边要考虑许多因素。
蜘蛛抓取网页策略4:重访抓取
昨天搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天又来抓取新的内容,这就是重访抓取。重访抓取分为全部重访和单个重访。所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次。单个重访一般都是针对某个更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间再来一次,比如隔1个月再来一次,或者等全部重访的时候再更新一次。
以上就是搜索引擎蜘蛛抓取网页的一些策略。搜索引擎蜘蛛把网页抓取回来后就开始进行数据分析。