数据标注流程之「数据清洗」

时间:

2022-12-19

分享到:

数据标注流程之「数据清洗」

整个数据标注流程共分为六大步骤,数据采集—清洗—预处理—数据标注—质检—交付。作为数据采集的下一步,数据清洗是决定数据质量的重要环节,影响着AI算法模型的有效性。

 

那么数据的清洗具体代指哪些内容?本文将作简要说明。

 

一般来说。数据清洗是纠正可识别数据错误的步骤。以自动驾驶数据标注为例,采集车收集的大量原始数据会包括无效数据、错误数据、重复数据等等,这时就需要将这些有问题的数据剔除出去。

 

因此,为保证数据的整齐一致性,处理各种问题数据就是数据清洗的职责所在。典型的数据清洗任务大致有三类,数据丢失、噪声数据、数据不一致。

 

数据丢失:数据丢失常由两方面因素导致,机器缘故与人为缘故。机器原因是指因机器导致数据收集或保存的失败缘故。人为原因是指被人的主观性或蓄意隐瞒导致的数据丢失。

 

对于这种情况,可采取两种方法。删除法:样本数量较大且丢失数据占比较小时,可直接丢弃缺失的部分。填补法:填补法分为均值填补与热卡填补,均值填补通过计算与缺失数据关联最大的几个属性均值,来估算缺失的数据值。热卡填补通过找寻与缺失数据最相似的属性数据作为缺失数 据值。

 

噪声数据:噪声数据是指在明确取值范围之外的数据。这些数据需经过特定方法来决定其是否被舍弃。常见的判断方法为回归法:回归法是利用线性函数来消除噪声的方法,找出拟合属性的最优函数,并利用这个函数预测问题数据。

 

数据重复:数据自身存在的重复问题,在数据清洗后也常会出现。重复数据不仅会浪费储存位置,也会加重后续数据处理负担。数据重复处理是数据清洗的最后一步。