在进行数据分析前,运营者需要对收集到的数据集进行数据清洗工作,否则数据分析的结果将会因为异常值的存在而产生误差。
以“商品画像”Excel文件中的数据为例,运营者可以通过 Excel的“筛选”功能查看各个维度的数据是否存在异常值。其操作步骤为:打开“商品画像”Excel表格,选择第一行数据,在菜单栏中选择“开始”选项卡,然后单击“排序和筛选”下拉按钮,在弹出的下拉菜单中选择“筛选”选项。
当 Excel操作界面产生“筛选”的功能符号(一个小的向下的箭头)后,运营者可以单击各个维度数据的“筛选”符号,从而查看该维度数据是否存在异常值。以“评分数量”为例,当单击“筛选”符号后,运营者会发现该维度数据存在“-1”的异常值,这类异常值是因为Python爬虫脚本在抓取数据时无法完成抓取导致的。
一般而言,异常值在总数据量的5%以内都不会影响数据分析的精准度,当运营者通过上述步骤筛选“评分数量”的异常值时,可以发现一共有23个异常值(Excel显示有24行,但是因为第一行是数据维度名称,所以总计异常值为24-1=23个)。
运营者可以重复上述步骤,将各个维度的异常值逐一进行删除即可。需要注意的是在对排名维度进行异常值处理时,只需对“Clothing,Shoes & Jewelry”维度进行处理而不需要对“Women’s Shops”维度进行处理,这是因为后者相比于前者属于小类排名存在部分商品属于大类而不属小类的情况。因此,在进行前期的数据清洗时,只需关注大类排名的数据即可。
当对“评分数量”“曝光价格”“商品价格范围(最低价 )”“商品价格范围(最高价)”“Clothing,Shoes & Jewelry”这5个维度中的异常数据进行清洗后,可以获得最终数据,将清洗后的数据保存在名为“清洗后的商品画像数据”Excel文件中。
随意单击该数据表格中的一列,可以发现该数据集包含18 660个ASIN的数据,相比于19152的原始数据,一共有492个带有异常值的ASIN被删除了。当完成了一系列数据清洗的步骤后,即可开始进行数据分析。