亚马逊上的数据采集-Amazon-连连国际官网-LianLianGlobal

亚马逊上的数据采集

时间: 2024/01/18

分类: Amazon

下载并安装成功爬山虎采集器后，可以看到工具栏。单击“新建任务”，创建自定义采集。

新建任务第一步需要输入网址。打开亚马逊网页，输入关键词“tunic tops for women”并进行搜索，搜索后将会生成以下的网页链接https://www.amazon.com/ s?k=tunci+tops+for+women&ref=nb_sb_noss，对该链接进行复制，粘贴至需要抓取的网页地址中。

爬山虎可以同时对多个链接进行抓取，因此如果需要同时抓取多个关键词搜索结果，可以输入多个链接，但抓取速度将会受到较大影响。

完成粘贴后单击“下一步”按钮，进入抓取数据环节。等待1~2分钟，爬山虎就会自动对网页信息进行试抓取和整理。最终生成的数据文件。从表格中可以看到，此处的7列数据中并没有数据化选品需要的数据。单击其他列上方的筛选按钮，即可选择删除该数据，最终只保留第2列的链接和第5列review数量进行深入采集。

当自动识别的结果不是想要的数据时，单击“列表模式”下拉按钮，在下拉列表中选择列表模式。“选择列表”选项，在上方网站中单击，即可完成数据选取。

此时采集器只能选中当前页面的数据，要想进行翻页抓取，需要单击左下角的分页设置，选择“自动识别分页”。采集器将自动找到翻页按钮，实际抓取时自动进行单击操作。

完成一级页面的操作后，选中title_link列，单击深入此链接采集。浏览器会新建一个内容页的标签页。

在内容页标签页中向下翻页，即可找到上架时间、父ASIN、大类目排名。由于抓取内容为文本内容，且不同链接中，这3行数据的位置不同，因此可以通过XPath功能完成抓取。具体操作为:双击选中抓取内容，右击并选择“生成XPath→根据前缀文本生成”命令。

此时将会生成对应代码。

选择复制该代码。单击“添加字段”按钮添加3列字段，并对每个字段进行手动设置XPath，将上述代码粘贴至手动设置区，最终完成设置后，单击“下一步”按钮。

此处需要注意的是，由于链接中所包含的ASIN为产品子SKU对应ASIN，不利于后期判断数据一致性，因此一定要采集父ASIN。

在第三步中，直接单击“保存”按钮，即可完成任务编辑，最终导出的数据将会合并一级页面的2列和二级页面的3列。

返回首页，选中刚才创建的任务，单击“开始”按钮，采集器即可开始抓取网页内容。在采集过程中，由于需要进行二级页面的采集，因此每个数据采集时间约为20秒以上。在实际的运营过程中，最好可以将采集时间设置为每日下午8点至次日上午8时。在保证抓取时间的相对一致以外，确保每天可以采集3 000条以上的数据。运营者持续抓取一个月并去除重复值后，可获取10 000余条链接数据。

由于采集器将会在短时间内产生大量重复点击，在1~2个月内将有可能触发亚马逊的机器人检测。因此采集器最好在非店铺后台的计算机进行操作，避免对日常运营产生影响。

（本文内容根据网络资料整理，出于传递更多信息之目的，不代表连连国际赞同其观点和立场）

全球收款账户

全球付款

全球收单

连连星球 汇兑

连连卡

全球领跑 一键开店

退税管家

LOOP AI

连连云号

商品寻源

融资服务平台

跨境电商

外贸 B2B

留学教育

跨境航旅

国际物流

数娱出海

产品文档

API 文档

数智出海

聚势中心

合作伙伴

福利权益

帮助中心

关于我们

合规资质

加入我们

品牌资讯

进口电商

Amazon

Shopee

Ozon

TikTok

美客多

Lazada

独立站

AliExpress

Wish

eBay

全部

外贸新手

外贸运营

外贸业务

外贸服务

外贸建站

进博会

广交会

进口出口

全部

独立站收单

外卡收单

海外本地支付

全部

其他

出口外贸

自建站

跨境选品

商标财税

跨境百科

跨境支付

跨境平台

跨境工具

跨境物流

跨境培训