一般来说,跨境电商数据清洗是精简数据库中的数据(除去重复记录的数据),并将剩余的数据的格式转换为标准的、可接收格式的过程。数据清洗标准模型是将数据输入数据清洗处理器,通过一系列步骤“清洗”数据,然后数据清洗处理器以期望的格式输出清洗过的数据。数据清洗从数据的准确性、完整性、一致性、唯一性、适时性、有效性等方面来处理数据的缺失值、错误值、重复记录、不一致性等。
跨境电商数据清洗的方法
( 1) 清洗不完整数据( 即缺失值 )的方法
在大多数情况下,缺失值必须手工填入(即手工清洗 。当然,某些缺失值可以从本数据源或其他数据源中推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失值,从而达到清洗的目的。
( 2) 错误值的检测及清洗方法
用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等 ) 检查数据,或使用不同属性间的约束、外部的数据来检测和清洗数据。
(3) 重复记录的检测及清洗方法
数据库中属性值相同的记录被认为是重复记录,我们通过判断记录间的属性值是否相等来检测记录是否重复,并将重复的记录合并为一条记录(即合并/清除 。合并/清除是清洗的基本方法。
( 4)不一致性( 数据源内部及数据源之间 ) 的检测及清洗方法
从多数据源集成的数据可能有语义冲突,我们可定义完整性约束用于检测不一致性,也可通过分析数据发现数据间的联系,从而使数据保持一致。