人工智能数据标注是指利用拉框、标点等方式将非结构化数据转换成机器可以理解的结构化数据。如果想要实现机器对一个物体识别精准率达99%以上,需要的训练数据可能是成千甚至上万。因此,人工智能不断发展的背后也是数据标注行业水平不断提升的标志。
数据标注都需要处理什么类型的任务呢?随着人工智能算法的不断拓进,人工智能已为许多行业提供服务,以下将简要说明数据标注的主要分类:
语音标注
语音标注是最常见的数据标注类型,标注员需要将听到的音频用文字形式表达出去,这可以是普通话、方言、外语等,常用于文字转写。近些年,各大企业对语音数据标注的要求不断提高,除了要准确表达语义之外,还要对音调、语气词进行标注,甚至还要分析音频中是否涉及违法词汇。
文本标注
对一行文字进行标注,主要标注内容可以针对情感需求、物体分类、对话一致性等等根据客户不同要求予以标注。现阶段,很多舆情公司会有标注文章的需求,以此判断文章类型是积极、消极或是涉嫌违法敏感的类型。
图片标注
图片标注主要应用于自动驾驶中。常见的类型有矩形框标注、多段线标注、多边形标注、语义分割、OCR识别以及图片审核分类。除自动驾驶外,最常见的应用领域也包括医学领域中。
3D点云标注
如果说图片标注是二维标注,那点云标注就是三维标注。3D点云标注是近些年才兴起的新型标注法。他所处理的数据是由雷达提供的,整副都由点云构成,主要方法有点云连续帧、点云语义分割标注。点云标注解决了自动驾驶视觉存在盲区的危险,加强了自动驾驶的安全性。
视频标注
视频标注是将视频转化成一页一页的单帧,将视频转换成图像,再进行统一标注的方法。主要用于识别视频中的某个动作或某个事件。