人工采集,顾名思义就是运营者通过基本的“复制粘贴”方式去亚马逊平台上采集数据,其一般应用于亚马逊搜索曝光页数据和商品详情页数据。人工采集的优点是无技术门槛,灵活方便,缺点是效率低下。一般而言,人工采集单个数据的时间为5秒(将亚马逊平台上的数据复制粘贴到表格或者数据库中的时间),一个正常工作8小时的运营者一天能分配的有效数据采集时间为 0.5~1小时,取中间值45分钟,那么一天的有效采集数据量为540个数据。如果一个商品需要采集3个维度的数据,例如review数量+排名+价格,那么540-3=180,即一个运营者一天可以有效跟踪与采集180个商品的数据。

如果运营者想要提升单日的人工采集效率,笔者有如下两条建议。

1.明确数据采集的目的,从而通过减少数据采集的频次,最终提升采集效率。例如,如果运营者想要了解一个搜索关键词下不同商品的销量分布规律,即可通过人工采集搜索曝光页前500~1000个商品的销售排名数据来进行估算,而无须采集其他维度的数据,也没有必要每天采集一次数据( 因为一个品类/关键词下的销量分布并不会在短时间内发生变化),这样就可以提升数据采集的效率。

2.在难以实现数据全面采集时,可以使用抽样采集的方法来提升采集效率。

例如,如果运营者想要分析某搜索关键词下前100页商品的review、排名、价格的分布规律,但是自身既没有能力与资金开发爬虫程序,也没有找到合适的工具或者第三方采集器,这时就可以使用抽样采集的方法。在该案例下,运营者可以将前100页的商品设定为100个组,设每页有48个商品,可以分别抽取每组的第8个、第16个、第24个第32个、第40个、第48个的商品,那么每个组就只需采集6次,总共6x100=600次,考虑到每次采集涉及review、排名、价格3个维度,那么总共采集的数据量为600x 3=1800个。如果一个数据的采集时间为5秒,那么总采集时间约为2.5小时,1周内即可完成所有数据采集。

(本文内容根据网络资料整理,出于传递更多信息之目的,不代表连连国际赞同其观点和立场)
*连连国际 (LianLian Global) 是连连数字旗下跨境支付核心品牌