关于数据标注那些事儿

时间:

2022-02-21

分享到:

关于数据标注那些事儿

在数字经济时代下,人工智能进程不断加速,已渗透到了生活的方方面面。在行业蓬勃发展的背后,数据标注作为其上游基础行业,已然成为AI的发展核心,在智能化道路上发挥愈加重要的作用。


算法模型需使用大量标注好的数据去训练机器以达到“智能”的目的,而数据标注就是帮助机器去学习认知数据中的特征。因此数据与人工智能是互惠共生的,人工智能产业发展促进数据标注的蓬勃兴起,而随着数据标注愈加规范化,其也为人工智能落地赋予动能。


究竟数据标注是什么?简单来说,数据标注工作就是标注员借助标注平台或标注工具等对数据进行打标签、框选等操作,为算法训练提供结构化数据支持,其处理的数据通常包括图像、语音、文本、视频、点云等类型。图像类包括拉框、打点、语义分割与OCR;语音类包括语音转写与语音标注;文本类包括情绪、意图与实体;视频与点云则利用到2D与3D技术。


数据标注过程的细节对于提高数据质量至关重要,这直接影响机器学习模型的预测推理质量。数据可以让预测准确率达到60%至70%,也可以让预测准确率达到99%,因此标注平台的辅助至关重要。曼孚科技的SEED平台作为数据服务平台除了提供三大标注模式、四维标注工具的多场景标注外,还通过AI辅助加快工作进程,利用18种不同类型的AI预标注辅助工具,全面实现计算机视觉、自然语言处理、语音交互在自动驾驶、智慧安防及泛场景等领域的标注需求,将标注效率提升至10倍以上,将准确率升至99%以上。


数据标注公司主要面对的企业包括:企业、政府、研究所。主要的项目流程包括标注需求对接、数据标注、对数据的交付与售后等三个主要步骤。数据标注流程通过标注平台对收集整理的原始数据进行预处理,建立可视化标注项目(人工标注与AI预标注)与测试验证数据质量。数据交付通过质量测评报告与多样化交付方式来完成。数据售后则通过定期回访与质量跟踪的模式进行。


目前数据标注主要应用领域包括自动驾驶、安防、医疗、工业与农业等。自动驾驶中的数据标注涉及行人识别、车辆识别、红绿灯识别、道路识别等,向相关企业提供精确的训练数据,,为智能交通保驾护航。在安防中数据标注对应的场景有面部识别、人脸探测、视觉搜索、人脸关键信息点提取以及车牌识别等。在医学方面可以帮助医生和患者解决医学影像识别困难、药物研发成本巨大、癌症治疗效果不佳等难题。在农业方面数据标注的场景有栽培管理、精准水肥和安全监测等。在工业中数据标注使模型对工业环境内的各类障碍物、机械设备和机器人有更加精确的感知, 实现工业智能机器与所处环境中人和物的安全交互。