算法、算力与数据,是人工智能最重要的三要素。而作为人工智能行业的重要基础,随着近些年AI商业化落地趋势愈发明显,数据服务行业的重要性得到了越来越多的认同。
在传统印象中,数据标注一直被曲解为“纯人力劳动”、“技术含量低”等。但事实上,作为AI基础层,数据标注却拥有着无法替代的重要性。
简单来说,数据标注工作是标注员借助标注平台或标注工具等对数据进行打标签、框选等操作,以为算法训练提供结构化数据支持。处理的数据通常包括图像、语音、文本、视频、点云等类型。
数据标注的重要性本质上是由目前机器学习方式决定的。
目前主流的机器学习方式是以有监督的深度学习方式为主,此种机器学习方式下对于标注数据有着强依赖性需求。举个简单的例子,人是如何识别一个苹果的。当我们第一次见到苹果这个物体时,我们并不清楚它是什么,身边的人会将它是什么,有什么用途告知于我们,此后我们见到类似物体时,就可以识别出苹果这个物体。
以此类推机器学习,想让机器能够识别出苹果这个物体,同样需要给机器一个学习的过程。类比人类学习的过程,我们就需要将一张图像中的苹果标注出来,这样的数据机器学习以后才能识别出图像中的苹果。
但人与机器不同,机器并不具备思考与联想的能力,因此需要海量的学习数据支持,才能将最终的算法识别模型调到最优解。
未经过标注处理的原始数据多以非结构化数据为主,这些数据是不能被机器识别与学习的。只有经过标注处理后的数据,成为结构化数据才能被算法训练所使用的,因此数据标注也是目前AI行业中热门且重要的一个分支。