场景化、精细化的数据集,才能撑起AI行业的未来

时间:

2022-11-04

分享到:

场景化、精细化的数据集,才能撑起AI行业的未来

谷歌大脑当年曾成功从视频中认出了一只猫,此项“壮举”的背后是16000台电脑学习了1000万张图片。然而,这个案例是无法落地应用的。因为仅仅识别特定环境下一只猫是远远不够的,如果换了其他场景,或者其他品种的猫,机器还能顺利识别出来吗?


事实上,这也是目前AI行业整体面临的问题:实验室里取得的部分成功是无法商业化落地应用的。


以上面谷歌案例为例,要想将此项成果顺利落地应用,那么机器至少能够做到识别多数场景下的各种不同品种的猫,这也就意味着初期需要采集和标注大量猫的相关图片、视频等数据以供训练算法。


然而,参考上面的数据量,“16000台电脑学习了1000万张图片”,此项目所需的数据量将达到一个天文数字。


这不仅意味着海量的工作量,还意味着高成本,更意味着项目可能永远无法落地应用。


这对于一个以营利为最终目的的企业来说是无论如何都不能接受的,摆在企业面前的只有两条路,一条是放弃,另一条是变革。


在AI界,目前有一项很重要的共识:数据集的质量决定算法模型的效果。一张高质量的标注图片抵得上几十张粗糙的标注图片,因此高质量的数据集就越来越受到相关AI企业的青睐。


作为人工智能行业的基础,数据标注行业长期处于刀耕火种的粗放状态中,披着人工智能的外衣,但是本质上仍然属于劳动密集型产业。


在AI商业化落地的大潮下,数据标注行业不应拖了行业发展的后腿,而应该主动为人工智能行业的发展保驾护航。


场景化、精细化的数据集才能撑起AI行业的未来,高质量的数据将成为破局数据标注行业商业化落地的关键。