自有编程爬虫脚本采集,是指通过爬虫程序自动抓取亚马逊平台的数据,属于技术性的数据采集方式。这里只是对这类数据采集方式做一个基础性的介绍,不会对IT 编程类相关的内容做过多讲述,感兴趣的读者可以自行查阅相关资料。

自有编程爬虫脚本采集主要应用于量级大、重复性高的数据采集工作,比如竞争对手listing的数据监控、数据化选品等。

首先下载爬虫程序“rank”,这是一个可执行文件即“EXE File”,在合适的运行条件下双击即可开启爬虫程序。注意,在桌面运行该BXE文件时,需要确保在桌面上已经存在有命名为“rank”的Excel表格,其表格的具体使用方法如下:创建一个名为rank的Excel表,其文件可以为xls或xlsx格式,并保证表格与exe文件在同一路径下,运营者可以将Excel表格与EXE文件一起存放于桌面上。表格的第-列输入需要提取排名的商品页面网址,然后关闭Excel表(表格打开时将无法存取数据此时将会弹出一个关闭提示),打开EXE程序,处理每个数据需要5~8秒,所有数据完成以后会弹出提示,因此打开文件后等待提示弹出即可,等待期间不要打开Excel表格完成后的数据将以rank.xls文件存在,如果原始文件格式为rank.xlsx,则会新建一个rank.xls文件。

完成所有文件的下载后,即可尝试使用爬虫程序,因为在原表格中已经存放有部分链接,所以可以直接双击“rank”的EXE文件开启爬虫程序。需要注意的是,爬虫程序开始后,名为“rank”的Excel文件必须处于关闭状态,否则会弹出请先关闭excel文件的警告页面。

因为初始Excel表格中已经记录了100个亚马逊链接,所以当爬虫程序启动后,需要等待10~20分钟,当数据爬取全部完成后,弹出已完成总计100条数据的提示页面。

当数据抓取任务全部完成后,打开名为“rank”的Excel文件。

名为“rank”的Excel表中主要存放了三种数据,第一种为亚马逊商品链接,第二种为该链接对应的大类目排名,第三种为数据抓取时间。

名为“rank”的Excel表中主要存放了三种数据,第一种为亚马逊商品链接,第二种为该链接对应的大类目排名,第三种为数据抓取时间。

在大类目排名数据中,有些数据会显示“-1”。

“-1”的数据抓取错误可能是由以下几方面原因造成的。

1爬虫程序使用过于频繁,网络IP暂时被封禁。

2该商品链接还未出单,没有对应的大类目排名。

3该商品不是非标品,其数据抓取逻辑与爬虫程序不一致;

4程序运行错误,这可能是由于操作系统不匹配(如OS系统、XP系统),网络故障造成的。

在名为“rank”的Excel表中,第三列为此次数据抓取的时间。

如果运营者需要记录其他商品链接的排名,可以将Excel文件中第一列的链接信息进行修改,然后再次启动爬虫程序等待抓取工作完成即可。

需要注意的是,爬虫程序如果在短时间内频繁使用会被亚马逊暂时封禁网络IP,这时爬取下来的排名数据会出现大量的“-1”,所以在使用过一次爬虫程序后,需要等待-段时间,才能开始下一次数据抓取。

(本文内容根据网络资料整理,出于传递更多信息之目的,不代表连连国际赞同其观点和立场)