数据标注工具发展简史

上传人 :曼孚科技
时间 :2021年12月01日

数据标注工具发展简史

工欲善其事,必先利其器。数据标注工具是标注行业的基础,一款好用的标注工具是提升标注效率与产出高质量标注数据的关键。

在诞生专用标注工具之前,数据标注工作通常是借助Ps等图像类编辑软件来进行,无论是在效率还是在匹配度上均存在诸多不足。

尤其随着数据标注市场需求的极速扩张,行业对专业数据标注工具的需求愈发急迫,因此第一代数据标注工具应运而生,比较典型的例子即是Labelme。

此类标注工具主要解决的核心问题是标注工具的有无,可以做到基本覆盖常见的图像类标注类型,比如拉框、描点之类的。但是随着数据标注行业向精细化、场景化方向延伸,此类数据标注逐渐暴露出各类问题,比如覆盖场景有限,无法处理一些复杂场景的数据,同时也不具备一定的项目管理能力,仅解决标注单一流程。

因此,标注工具进化到第二代。第二代标注工具的核心特征是:多场景标注能力+有限项目管理能力。用户可以在工具内执行一些简单的项目管理工作,比如分配任务。但这种项目管理能力实验性质居多,既不成体系,也不具备实用性。尤其随着AI商业化进程的加快,如何高效率、高质量的产出更多数据集成为下一代数据标注工具的核心竞争力。

目前,数据标注已经发展到第三代,相较于前两代,目前的标注工具已不再是简简单单的工具,而是平台。代表的突出特征是:数据全生命周期管理能力+供应链管理+项目协同+AI人机协同+自定义权限+全场景覆盖标注能力。

以曼孚科技SEED数据处理平台为例,除了具备覆盖全部场景的标注能力以外,还具备全流程的项目管理能力以及高效的AI自动化标注能力。无论是在数据产出效率还是在数据质量提升方面均较以往工具有了成倍提升。