搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(Full Text Search Engine)和分类目录(Directory)。
1.全文搜索引擎
全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引查找,并将查找的结果反馈给用户。网络机器人(Spider)或叫网络蜘蛛(crawlers)软件,通过网络上的各种链接自动获取大量网页信息内容,并按拟定的规则分析整理。最常用的全文搜索引擎有百度、谷歌(Google)等。
2.目录索引
目录索引也称为分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中代表性的是雅虎(Yahoo)、搜狐、新浪、网易搜索。
全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎依靠软件进行,所以数据库的容量非常庞大,但是它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www. google. com/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索。
3.元搜索引擎(META Search Engine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如 Vivisimo。
4.集合式搜索引擎
该搜索引擎类似元搜索引擎,区别在于并非同时调用多个引擎进行搜索,而是由用户从提供的若干个引擎中选择,如HotBot在2002年底推出的引擎。
5.门户搜索引擎
如AOL Search、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
6. 免费链接列表(Free For All Links,简称 FFA)
这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过比起 Yahoo 等目录索引来规模要小得多。