高质量数据标注才能定义AI行业的未来

上传人 :曼孚科技
时间 :2021年10月29日

高质量数据标注才能定义AI行业的未来

算法、算力与数据是AI行业发展的三驾马车。

其中算力属于基础设施能力,算法是基于基础设施之上运作的工作方法,而数据则是用来指导算法运作的依据。

AI行业的繁荣离不开三者的共同发展。然而就目前的实际情况而言,算法与算力充足,数据尤其是高质量的数据却十分缺乏。

谷歌大脑当年曾成功从视频中认出了一只猫,此项“壮举”的背后是16000台电脑学习了1000万张图片。然而,这个案例是无法落地应用的。因为仅仅识别特定环境下一只猫是远远不够的,如果换了其他场景,或者其他品种的猫,机器还能顺利识别出来吗?

事实上,这也是目前AI行业整体面临的问题:实验室里取得的部分成功是无法商业化落地应用的。

以上面谷歌案例为例,要想将此项成果顺利落地应用,那么机器至少能够做到识别多数场景下的各种不同品种的猫,这也就意味着初期需要采集和标注大量猫的相关图片、视频等数据以供训练算法。

然而,参考上面的数据量,“16000台电脑学习了1000万张图片”,此项目需要的数据量将达到一个天文数字!

这不仅意味着海量的工作量,还意味着高成本,更意味着项目可能永远无法落地应用!这对于一个以营利为最终目的的企业来说是无论如何都不能接受的。摆在企业面前的只有两条路,一条是放弃,另一条是变革。

在AI界,目前有一项很重要的共识:数据集的质量决定算法模型的效果。一张高质量的标注图片抵得上几十张粗糙的标注图片,因此高质量的数据集就越来越受到相关AI企业的青睐。

作为人工智能行业的基础,数据标注行业长期处于刀耕火种的粗放状态中,披着人工智能的外衣,但是本质上仍然属于劳动密集型产业。

在AI商业化落地的大潮下,数据标注行业不应拖了行业发展的后腿,而应该主动为人工智能行业的发展保驾护航。

场景化、精细化的数据集才能撑起AI行业的未来,高质量的数据将成为破局数据标注行业商业化落地的关键。