由于网络数据的丰富程度快速提高,个人与企业对数据的需求也日益增加,利用数据进行决策支持也成为普遍性的需求。同时,利用数据进行预测与优化分析,可以有效地提高效益与防范风险,准确、快速地获取数据也成为很多岗位要求的必备技能。
① 通用网络爬虫
通用网络爬虫从互联网中搜集网页采集信息,这些网页采集信息用于为搜索引擎建立索引提供支持,网页信息的丰富程度决定了整个引擎系统的内容是否丰富、信息是否即时,因此引擎系统性能的优劣直接影响了搜索引擎的使用效果。
通用网络爬虫的采集原理是,通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始读取网页的内容,从而找到网页中的其他链接地址,然后通过这些链接地址寻找下一个网页。这样一直循环,直到抓取这个网站所有的网页。
用网络爬虫的基本工作流程
1.抓取网页。2.数据存储。3.预处理。4.提供检索服务和网站排名。
② 聚焦网络爬虫
Web 结构越来越复杂,网页数量越来越多,通用网络爬虫对所有链接指向的网页不加选择地抓取,往往不能遍历整个 Web 上的所有网页,而聚焦网络爬虫会有选择性地抓取那些与预先定义的主题相关的网页。和通用网络爬虫相比,聚焦网络爬虫只需要抓取与主题相关的网页,极大地减少了硬件损耗、节省了网络资源,保存的网页也由于数量少而更新快,同时可以很好地满足特定人群对特定领域信息的需求。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块及内容评价模块。聚焦网络爬虫爬行策略实现的关键是评价网页内容和链接的重要性,使用不同的方法得出的重要性不同,由此导致链接的访问顺序也不同。