搜索引擎是如何抓取关键词的

2023/05/22

Amazon

提到了很多次搜索引擎及其工作原理。第一次接触到这此专业名词的读者可能有些懵，本文就讲一下搜素引擎及其工作原理，以更好地帮助读者理解亚马逊 A9的工作原理。

亚马逊

一、索引是什么

在网速正常的情况下，我们在亚马逊搜任意一个关键词都会在极短时间内得到一个搜素结果页。很多人认为这个搜索结果页是实时产生的，其实不然，这些搜索结果都是经过亚马逊预处理的。一般搜索引擎抓取的原始页面是不可能被直接用来做排名的，而且亚马逊上的页面是以亿计的，靠任何一个程序都不可能在这么短的时间内抓取这么多页面并返回一个排名结果。

所以，亚马逊在抓取了页面上的关键词以后，必须进行一个预加工的过程，这个过程一般被称为 “索引”，普通客户是感受不到这个过程的。

二、亚马逊搜索引擎是如何进行索引的

首先，亚马逊的蜘蛛（蜘蛛通常指的是搜索引擎的抓取程序，下同）会抓取页面上的文字信息，因为所有的页面除了文字以外，还包含各类前端内容，包括 HTML代码、格式标签等，所以蜘蛛首先要把这些除了文字之外的标签、代码从抓取内容里面删除，从而形成一个纯文字的抓取结果。

我们看到亚马逊代码图里有很多文字，但是对于蜘蛛来说，这里的文字最终剩下的只有一部分：This item:, Certified Refurbished Amazon Echo ( 1st Generation )——仅仅这么多而已。

当然，如果在里面插入一些B标签里着重突出的一些词，蜘蛛也会特别注意一下。其次，去除无用词。每个页面上都有非常多的无用词，这些词本身在页面上没有任何意义，对页面的主题也没有任何贡献。比如the，a.an, to, of, this 这样的介词，或者是在每个页面上反复出现的一此词。这此词在导航栏是反复出现的。蜘蛛反复地去抓取这此词没有任何意义，所以这类词也会在抓取时被去除。

最后，亚马逊需要对抓取出来的结果进行两次索引过程。

每一个页面都会被视为一个关键词的合集。但是，这个索引结果还不能被用到搜索结果里。因为如果有客户搜素关键词C，那么蜘蛛需要扫描所有素引库里的文件以找到合适的结果。这个过程仍旧很漫长，无法满足客户的需求。

所以，搜索引擎要进行第二次索引，形成另外一个索引结果。

在这次索引过程中，亚马逊会把前一次的索引结果进行倒向排列，把关键词与文件的映射关系反过来。在这次索引中，关键词是主要索引依据。当客户搜索某个关键词时，这些页面文件就会立刻被抓取出来。

经过这两次索引，亚马逊才能快速地把关键词和页面排序的对应关系排列出来，才能在极短的时间内反馈给客户他们想要的搜索结果。

当然，亚马逊在进行这一系列计算的过程中，自然也会把 listing 的权重计算在内。毕竟，这才是排名的关键。

三、我们究竟需要什么样的关键词

看到这里，或许有些读者还会担心，用这种方法找出的关键词这么多，没有办法把它们全部布置在 listing 上。所以，这么多关键词到们到底需要什么样的关键词？

中文搜索引擎优化方面有个术语叫作“分词”，分词是专门针对中文而出现的一种技术，英文搜索引擎是不需要这种技术的。原因是什么呢？因为英文本身每个单词中间都有空格来分割，所以并不需要分词；相反，英文搜索引擎会自行进行组词。比如，amazon echo dot 2nd generation 这样一个关键词，在搜索引擎眼中，每一个单词都是独立存在的，客户不仅会搜这个词组，还会搜echo dot 2 这样的词，一样能搜索出我们需要的产品。

所以，读者不用担心漏掉词组，你只需要保证你的每一个单词都出现在你的listing里就可以了。就像我们在提取标题的关键词时一样，把所有的核心关键词都罗列出来，这样就可以保证每个词都出现在你listing 里。经过搜索引擎的计算和组词之后，可以组合出各种词组的。

上一篇：亚马逊跨站点图片优化对策

下一篇：亚马逊关键词选择

首页

搜索引擎是如何抓取关键词的

连连

全球收款账户

全球付款

全球收单

连连星球 汇兑

连连卡

全球领跑 一键开店

退税管家

LOOP AI

商品寻源

融资服务平台

CrossLink

连企通

跨境电商

外贸 B2B

留学教育

跨境航旅

国际物流

数娱出海

海外主体 全球华商

产品文档

API 文档

生态福利

跨境服务

逐浪计划

聚势中心

合作伙伴

福利权益 畅享优惠

帮助中心

关于我们

合规资质

加入我们

品牌资讯

招聘求职

岗位招聘

跨境求职

搜索引擎是如何抓取关键词的

连连

连连星球汇兑

全球领跑一键开店

海外主体全球华商

福利权益畅享优惠