搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
搜索引擎的工作原理
搜索引擎的工作原理对于外界来说神秘且高深。其实搜索引擎的工作原理非常简单。很多人都误认为搜索引擎返回的结果是动态的,其实搜索引擎返回的结果是提前就已经抓取,然后经过了一系列算法筛选之后放入数据库,用户查询时就立即对索引数据库进行查找,反馈用户准确的关键字查询结果。
1.搜集信息形成快照
网页快照收录是搜索引擎通过网络爬虫(Spider)在互联网上抓取页面并进行存储形成快照的过程,其为搜索引擎开展各项工作提供了数据支持。理论上,若网页上有适当的超链接,网络爬虫便可以遍历绝大部分网页。
2.整理信息建立索引
普通用户看页面,看到的都是文字、图片等一些直观的信息,但是搜索引擎看的是网页源代码,而且会根据这些源代码来确定网页的重要信息。确定重要文字或词语,是搜索引擎建立网页索引过程的一个步骤。
搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎不用重新翻查它所有保存的信息,就能迅速找到所要的资料。
3.接受查询搜索排序
搜索引擎还会根据同义词典和潜在语义进行拓展查询检索项。例如,有时搜索引擎会将“宠物”和“狗狗”,“藏獒”和“犬”,“人民”和“百姓”当作同一个概念进行处理。另外,搜索引擎在查询的时候,还会根据主题来进行归类,例如,当我们查询“SEO”的时候,系统会自动将“网络营销”“搜索引擎优化”“网站优化”之类的都归为一个主题来处理。
用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短的时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回的信息主要是以网页链接的形式提供的。