数据清洗及有效数据筛选-跨境培训-连连国际官网-LianLianGlobal

数据清洗及有效数据筛选

时间: 2024/01/18

分类: 跨境培训

标签: 跨境电商数据清洗数据筛选

在进行数据分析前，运营者需要对收集到的数据集进行数据清洗工作，否则数据分析的结果将会因为异常值的存在而产生误差。

以“商品画像”Excel文件中的数据为例，运营者可以通过 Excel的“筛选”功能查看各个维度的数据是否存在异常值。其操作步骤为:打开“商品画像”Excel表格，选择第一行数据，在菜单栏中选择“开始”选项卡，然后单击“排序和筛选”下拉按钮，在弹出的下拉菜单中选择“筛选”选项。

当 Excel操作界面产生“筛选”的功能符号(一个小的向下的箭头)后，运营者可以单击各个维度数据的“筛选”符号，从而查看该维度数据是否存在异常值。以“评分数量”为例，当单击“筛选”符号后，运营者会发现该维度数据存在“-1”的异常值，这类异常值是因为Python爬虫脚本在抓取数据时无法完成抓取导致的。

一般而言，异常值在总数据量的5%以内都不会影响数据分析的精准度，当运营者通过上述步骤筛选“评分数量”的异常值时，可以发现一共有23个异常值(Excel显示有24行，但是因为第一行是数据维度名称，所以总计异常值为24-1=23个)。

运营者可以重复上述步骤，将各个维度的异常值逐一进行删除即可。需要注意的是在对排名维度进行异常值处理时，只需对“Clothing，Shoes & Jewelry”维度进行处理而不需要对“Women’s Shops”维度进行处理，这是因为后者相比于前者属于小类排名存在部分商品属于大类而不属小类的情况。因此，在进行前期的数据清洗时，只需关注大类排名的数据即可。

当对“评分数量”“曝光价格”“商品价格范围(最低价 )”“商品价格范围(最高价)”“Clothing，Shoes & Jewelry”这5个维度中的异常数据进行清洗后，可以获得最终数据，将清洗后的数据保存在名为“清洗后的商品画像数据”Excel文件中。

随意单击该数据表格中的一列，可以发现该数据集包含18 660个ASIN的数据，相比于19152的原始数据，一共有492个带有异常值的ASIN被删除了。当完成了一系列数据清洗的步骤后，即可开始进行数据分析。

（本文内容根据网络资料整理，出于传递更多信息之目的，不代表连连国际赞同其观点和立场）

全球收款账户

全球付款

全球收单

连连星球 汇兑

连连卡

全球领跑 一键开店

退税管家

LOOP AI

连连云号

商品寻源

融资服务平台

跨境电商

外贸 B2B

留学教育

跨境航旅

国际物流

数娱出海

产品文档

API 文档

平台账户体系

商家账户支付

全球分发

接入指南

数智出海

聚势中心

合作伙伴

福利权益

帮助中心

关于我们

合规资质

加入我们

品牌资讯

进口电商

Amazon

Shopee

Ozon

TikTok

美客多

Lazada

独立站

AliExpress

Wish

eBay

全部

外贸新手

外贸运营

外贸业务

外贸服务

外贸建站

进博会

广交会

进口出口

全部

独立站收单

外卡收单

海外本地支付

全部

其他

出口外贸

自建站

跨境选品

商标财税

跨境百科

跨境支付

跨境平台

跨境工具

跨境物流

跨境培训

数据清洗及有效数据筛选

连连国际

连连星球汇兑

全球领跑一键开店