数据是当今企业的命脉,相比数量要求,企业对数据质量愈加看重。高度可信的训练数据对于自动驾驶模型的成功至关重要,即使是少量错误、不准确或过时的数据,也会使得模型无法完全走出实验室,实现社会化应用。
许多算法问题都是由于数据质量差导致,而提高算法数据质量的一种方法便是利用数据标注,即使用某些属性或特征标记数据。例如,可以将道路图像中的行人、车辆、指示灯手动标注为相应的类别,从而教会模型识别物体。
数据标注是一项枯燥繁琐的工作,如果标注的数据质量低,那么模型就不得不重新设计、重新训练,一遍又一遍的运行。随着自动驾驶对数据集需求增加,标注将变得更加重要。
而标注质量如何提高,从标注员的角度,以下几点可以考量:
标注培训由简入繁:通过给标注者一些简单的任务慢慢开始,在培训过程中,不断优化,提供清晰准确的教学内容。
添加审核人员:审核人员(从优秀的标注员中选出)需将第一批标注员的工作成果进行审核筛查,以提高整体标注质量。
增加门槛:对标注员进行质量测试,如增加准确率、时间、数量等要求,以筛选更加优秀的标注员。
总之,标注员的整体素质将直接决定训练数据质量,一支优秀专业的团队将会解决此类烦恼,曼孚科技作为全球知名的智能数据服务商,通过自研平台MindFlow
SEED,已全球数百家自动驾驶领域客户提供专业定制化自动驾驶数据解决方案。