训练数据中常见的数据错误

时间:

2022-02-22

分享到:

训练数据中常见的数据错误

人工智能发展最关键的技术莫过于深度学习,作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果准确性取决于接近“无穷”量级的数据。因此深度学习最关键的一环就是需要大量数据训练,这也是人工智能可以在互联网大数据时代崛起的原因。而在数据训练之前,作为机器学习的先导经验,必须先对大量的数据进行标注。


高质量数据对于构建高性能模型至关重要。正确数据往往只有一种,但错误数据却有很多种错误方法。假设我们正构建一个使用雷达数据的模型,雷达的工作原理是发送脉冲来捕捉它与目标物体(如汽车或行人)之间的距离,标注者的任务是围绕汽车绘制3D边界框或长方体,此模型的训练数据包含一个有代码的JSON文件,该文件会指定长方体的位置、高度和深度以及其中包含的内容(在本例中为汽车)。在这个标注过程很多步骤中都可能会出现错误。只有意识到潜在的错误才能创建出更完整、更具代表性的数据集。下面介绍常见的三个数据错误类型。


标签错误。标签错误是数据标注中最普通也最常见的问题之一,拿自动驾驶中数据标注任务为例,在图像中的汽车周围绘制边界框,预期的任务内容是围绕每辆车绘制出紧密边界框。以下是此任务可能发生的错误类型;缺少标签:标注者没有在其中一辆车周围绘制一个边界框。打点不准确:每辆车周围的边界框不够紧,在它们周围留下了不必要的间隙。指令的误解:标注者在图像中的所有车辆周围放置一个边界框,而不是每辆车放置一个。


不平衡的训练数据。不平衡的数据集会导致模型性能出现偏差。在以下情况下会发生数据不平衡;类别不平衡:在缺少代表性的数据集时会发生这种情况。例如在训练识别车辆的模型中,只有某一环境下的车辆图像数据,那么该模型在制定环境下可以很好地识别车辆,但在其他条件下则不然。数据新近度:随着现实世界不断更迭,所有模型都会随时间推移而退化,比如更新的道路信息、交通法则以及车辆等信息,当发生这样的变化时,模型需要根据新数据定期纳新。


标签过程中的偏差。当数据需要特定知识或上下文以进行准确标记时,可能会在标记过程中出现偏差。假设希望标注工具识别图像中小型车辆,数据集中包含世界各地小型车辆的信息,但如果让其他国家标注者为这些数据贴上标签,很可能会难以识别这些车辆,错误地判断它们是否为小型车辆,导致数据标注出现偏差。


因此,训练数据集的质量问题需要获得更多的关注目光,数据服务商也需要将更多精力放在提升数据集质量与数据精度上。例如,可在人工标注前利用AI进行辅助标注,利用标注平台规范标注内容,减少标注者的思维偏见等等。