数据分析系统用来处理搜索引擎蜘蛛抓取回来的网页,包括以下几个步骤。
(1)网页结构化。简单地说,就是把那些html代码全部删掉,提取出内容。
(2)消噪。消噪是什么意思呢?在网页结构化中,已经删掉了html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容。
(3)查重。查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。
(4)分词。搜索引擎蜘蛛在进行了前面的步骤后,提取出正文的内容,把内容分成N个词语排列出来,存入索引库。同时,也会计算这一个词在这个页面出现了多少次。
(5)链接分析。搜索引擎会查询这个页面的反向链接有多少、导出链接有多少,以及内链,然后赋予该页面相应的权重。
(本文内容根据网络资料整理,出于传递更多信息之目的,不代表连连国际赞同其观点和立场)