搜索引擎将从网络中抓取回来的所有资料,通过关键字描述等相关信息进行分门别类整理、压缩后,再编辑到索引里,还有一部分抓取回来经过分析发现无效的信息则会被丢弃。只有经过编辑在索引下的信息,才能够在搜索结果中出现。最后,搜索引擎则经过用户输入在最终用户眼前的关键字进行分析,为用户找出最为接近的结果,再通过关联度由近及远地排列下来,呈现搜索引擎工作原理简单地说就是:搜索引擎蜘蛛发现连接→根据蜘蛛的抓取策略抓取网页→然后交到分析系统的手中→分析网页→建立索引库。
什么是搜索引擎蜘蛛,什么是爬虫程序?
搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢?其实很简单,就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,建立索引库,等等,我们可以把搜索引擎蜘蛛当作一个用户,这个用户来访问我们的网站,然后再把我们网站的内容保存到自己的电脑上。首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现,就是通过链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然同时会提取这个页面所有的链接,然后就是循环、反复进行搜索。
(本文内容根据网络资料整理,出于传递更多信息之目的,不代表连连国际赞同其观点和立场)