搜索引擎(search engine)是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息;索引器的功能是理解搜索器所搜索的信息,从中抽取索引项,用于表示文档以及生成文档库的索引表;检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制;用户接口的作用是输人用户查询、显示查询结果、提供用户相关性反馈机制。

搜索引擎的运行机理:

由于互联网上的信息资源纷繁复杂,而用户对信息的需求又具有特定性,为了能从成千上万个网站中快速有效地查询到所需要的信息,用户可以通过搜索引擎对自己所需要的信息进行搜索定位,发现所需信息所在的站点,然后再去该站点查找所需要的资料。搜索引擎的运行机理主要包括收录页面、分析页面、排序页面和查询关键词四个方面的内容。

1.收录页面

收录页面是指搜索引擎通过自动化的检索程序按照一定的规则在互联网上抓取相关页面,然后将页面储存在相关数据库中的过程,它是搜索引擎开展各项工作的基础。

2.分析页面

搜索引擎在收录页面的基础上,按照一定的要求对收录的原始页面建立索引,实现对收录页面的定位,然后提取和分析收录页面的正文信息,得到关键词,并为之建立索引,从而形成页面与关键词之间的对应关系,最后搜索引擎对关键词进行重组,最终形成关键词与页面间对应关系的反向列表,从而能够根据关键词快速链接到相应的页面。

3.排序页面

搜索引擎结合页面的内外部因素(网页地址、编码类型、页面内容包括的关键词及位置、生成时间、网页大小、与其他网页的链接关系等),根据一定的相关度算法计算出页面与某个关键词的相关程度,并按照相关度数值对页面进行排序,形成与该关键词相关的页面排序列表。

4.查询关键词

搜索引擎在接收到用户的查询请求后,开始对查询信息进行切词,并与收录页面的关键词进行匹配,再将搜索到的含有链接地址、内容摘要等内容的页面排序列表返回给那用户。

(本文内容根据网络资料整理,出于传递更多信息之目的,不代表连连国际赞同其观点和立场)