随着机器学习不断提高,人工智能已逐渐步入大规模商业化应用阶段。
不过,虽然过去几年人工智能应用取得了不错的成就,但事实上,人工智能距离大规模应用尚有一段距离,短期内人工智能尚难以真正落地。一些人工智能独角兽企业,即便已经有了不少的落地实践场景,但在大规模应用和落地方面也仍在努力摸索中。
究其原因,AI技术难以落地主要原因是因为缺乏可供训练模型的大量场景化数据。
在人工智能领域,算法、算力与数据是最重要的三个基本要素。其中,数据是基础,数据标注的质量直接决定最终模型的效果。
以自动驾驶汽车为例,在汽车自动驾驶领域,数据标注处理的标注场景复杂且多样,从简单的换道超车、风险避障、紧急场景下的无保护左转、右转,到一些复杂的长尾场景诸如闯红灯车辆、车祸时的应急处理避险、路边违章停靠的车辆等等。
以上这些场景数据,基本覆盖自动驾驶领域常见的几类场景,从研究角度来看,这些数据已经基本满足自动驾驶技术试验的需求。
但是,从商用角度来看,这些数据却无法支撑起自动驾驶汽车落地的要求。在真实路况场景中,汽车所面临的场景是多种多样且无法预知的,初期投喂的数据覆盖场景越多,车载电脑在遇到各种突发场景时做出正确决策的概率就越大。
这也是为什么目前自动驾驶行业仍然处于L2-L3阶段的一个十分重要原因。真实路况与实验园场景差异化过于巨大,在封闭实验园中的自动驾驶应用很容易在真实道路场景中“水土不服”。
所以,提升数据标注的场景化标注能力就成为人工智能商业化落地的有效助力之一。未来,高质量、精细化、场景化的数据标注能力将是数据标注行业的主要发展方向。