数据标注种类分析

上传人 :曼孚科技
时间 :2021年12月16日

数据标注种类分析

纵观人工智能发展,中国在全球人工智能领域已占有重要地位。据相关报道,“2020年中国的人工智能市场规模已近千亿,中国人工智能领域某些技术已超美国成为世界第一。”在这样的行业背景下,数据作为AI发展的基础,随着市场对其需求与日俱增,数据标注成为热门选择。

数据标注是指把数据某些方面的特征框定出来以此帮助机器进行准确识别。目前可将数据标注分为以下几类:

一.图像类

1.拉框:利用2D矩形框或多边形框对车辆、人和动物等进行识别,并对所框后的待检测物体进行标注。

2.打点:对面部或姿势等关键部位进行精确标注,该技术对点的位置有严格的限制。

3.语义分割:对场景里所有元素都进行标注,并进行填色区分。

4.OCR:对文字等待检测物体框选后,进行准确转写。

二.语音类

1.语音标注:用于文本与语音的校对以及对语音内容审核等。

2.语音转写:将一段语音转写出来,转写的语种可以是普通话、方言和外语。标注员还需根据语音的长短及是否需要分割等实际情况进行操作。

三.文本类

1.情绪:对文字内容进行情感判断,常用于监测网络社交媒体及电商平台的评论内容。

2.意图:帮助机器更好的理解用户需求,多意向数据收集可对用户意图进行归纳分类,如可分为请求、命令、推荐等。

3.实体:将一句话中的实体提取出来,主要用于企业实体标记,如对人员、地点、组织等标注。