利用网站自身提供的应用程序编程接口(Application Programming Interface,API)实现网络数据采集即调用网站 API,可以很好地解决数据针对性的问题。
越来越多的社会化媒体网站推出了开放平台,提供丰富的 API,如新浪微博、博客等。这些平台包含许多关于“电子商务”“跨境电商”的话题和评论、图片等内容,这些平台允许用户申请平台数据的采集权限并为其提供相应的 API 采集数据。
API 采集主要有开放认证协议和开源 API 调用两类。
① 开放认证协议
开放认证(OAuth)协议不需要提供用户名和密码就可以获取用户数据,它为第三方应用提供了一个“令牌”,每一个“令牌”对应特定的网站(如社交网站),并且应用只能在令牌规定的时间范围内访问特定的资源。为了降低 OAuth 协议的复杂性,OAuth 2.0 协议很快被提出,OAuth 2.0 更加关注客户端开发者的操作简易性,它为手机应用、桌面应用和 Web 应用提供专门的认证流程。目前,各大社交网站诸如新浪微博等都提供了 OAuth 2.0 支持。
在已获授权的情况下,第三方应用可通过 API 直接调取网络数据。通过 API 获取的网络数据通常以 JSON 或 XML 的格式呈现,具有清晰的数据结构,非常便于通过程序直接进行数据提取。
② 开源 API 调用
开源 API 是网站自身提供的接口,可以自由地更改接口来调用该网站的指定数据。
跨境电商数据采集的流程
因为数据采集要求越来越高,数据采集量日益增加,单台计算机的采集已不能很好地满足用户的需求。云计算技术的出现正好解决了这个问题。云计算将计算和数据分布在大量的分布式计算机上,“云”中的计算机提供强大的计算能力,能够完成传统单台计算机根本无法完成的计算任务。同时,“云”中的计算机具有庞大的数据存储空间,使采集器可以满足多种采集需求。