详解曼孚科技SEED数据服务平台(1):全场景覆盖

上传人 :曼孚科技
时间 :2021年06月29日

详解曼孚科技SEED数据服务平台(1):全场景覆盖

工欲善其事,必先利其器。

在人工智能技术与产业深度融合的时代背景下,基础数据服务行业的重要性愈发凸显。如何为AI行业提供优质、场景化的数据服务,是摆在一众数据服务企业面前的首要难题。

行业竞争愈发“内卷化”,这对数据服务企业的产品迭代速度与产品质量均提出了更高的要求。

截止目前,曼孚科技数据标注工具经历了两代更迭。第一代数据标注工具主要解决了标注工具有无以及是否好用的问题。

然而,即便我们将数据处理效率提升至行业平均水平的几倍以上,但我们认为,这仍然没有突破传统数据处理工具的条框——我们的工具与诸多竞品工具相似,功能都仅限于将非结构化数据转化为结构化数据,这并没有技术壁垒,也没有产生质变。

于是我们想做一些其他人还没有做的事情,用平台来更好地实现对AI数据全生命周期的管理,于是SEED平台应运而生。

SEED平台全称为“SEED数据服务平台”,我们将SEED定义为“平台”而不是“工具”,是因为我们认为数据从诞生到被算法模型调用的全生命周期内,需要历经的过程通常包括采集、清洗、标注、质检审核、交付等流程,中间还会穿插数据集的管理、人员的管理、项目的管理、供应链的管理等众多内容。

以往传统的数据标注工具解决的仅仅是标注这一流程,项目管理、团队人员管理等依靠的仍然是传统口耳相传模式,在沟通效率、执行成本以及流程透明度等方面表现不尽如人意。只有流程化、规范化、标准化的平台,才能有效满足大规模AI基础设施建设带来的迫切需求。

所以,为了更好地满足AI基础数据多样化的需求,突破数据与应用场景之间存在的边界,解决以往使用单一工具在执行效率上的欠缺,曼孚科技自研了一套贯通数据处理、项目管理和数据安全管控等各环节于一体,并且能对图像、文本、语音、视频以及3D点云数据做到一站式处理的SEED数据服务平台。

SEED数据服务平台

在未来的一段时间内,我们将推出系列文章,从“数据标注”以及“项目管理”两个角度详细介绍SEED平台各个功能模块,详尽展示SEED平台在数据生命周期管理方面的独到之处。

本篇内容为系列文章的第一篇,详解SEED平台的多场景数据处理能力:

根据数据类型的不同,标注类型可大致分为计算机视觉、语音交互以及自然语言处理三大类。其中计算机视觉又可以进一步划分为计算机视觉-2D以及计算机视觉-3D两种类型。

SEED数据服务平台具备三大标注模式以及四维标注工具,全面覆盖计算机视觉、自然语言处理以及语音交互等具体应用场景,满足不同应用场景下的各类数据标注业务需求。

SEED数据服务平台多场景数据处理能力

计算机视觉-2D

计算机视觉-2D处理数据类型以2D图像类数据为主,常见的标注类型包括2D框、多边形、3D立方体、关键点、多段线、全景语义分割、贝塞尔曲线、椭圆等。

2D框

3D立方体

多边形

关键点 

多段线

全景语义分割

贝塞尔曲线

计算机视觉-3D

计算机视觉-3D处理数据类型以3D点云类数据为主,常见的标注类型包括单帧物体检测、连续帧、2D3D融合标注,点云语义分割等。

点云单帧物体检测

点云连续帧+2D、3D融合

语音交互

语音交互处理数据类型以语音类数据为主,常见的标注类型包括ASR语音转写以及TTS语音合成等。

ASR语音转写

自然语言处理

自然语言处理涉及数据类型以文本类数据为主,常见的标注类型包括OCR转写、实体识别、文本分类等。

OCR转写