定制化数据集是未来数据标注行业发展的主流形式

上传人 :曼孚科技
时间 :2021年11月19日

定制化数据集是未来数据标注行业发展的主流形式

机器学习是人工智能的核心,是使计算机具有智能的根本途径。

机器学习按照训练方式不同,又可以分为使用人工标注分类标签训练的监督学习、无分类标签且自动聚类推断的无监督学习、使用少量人工标注+自动聚类的半监督学习和根据现实情况自动“试错+调整”的强化学习四类。

目前,AI应用最广泛的计算机视觉和智能语音更依赖于监督学习下的深度学习方式,而监督学习下的深度学习算法训练则十分依赖人工标注数据。

时至今日,人工智能从业公司的算法模型经过多年的打磨,基本达到阶段性成熟,随着AI行业商业化发展,更具有前瞻性的数据集产品和高定制化数据服务需求成为了主流。据了解,目前一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求;语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,不仅如此,随着IoT设备的普及,语音交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于标注数据的需求也是逐步增长。

结合市场来看,随着AI商业化发展,AI基础数据服务需求步入常态化,存量市场具有较为稳定的需求源头,而增量市场随着应用场景的丰富,以及新型算法的诞生,拥有更广阔的想象空间。