场景化、精细化的数据集，才能撑起AI行业的未来

时间：

2022-11-04

分享到：

谷歌大脑当年曾成功从视频中认出了一只猫，此项“壮举”的背后是16000台电脑学习了1000万张图片。然而，这个案例是无法落地应用的。因为仅仅识别特定环境下一只猫是远远不够的，如果换了其他场景，或者其他品种的猫，机器还能顺利识别出来吗?

事实上，这也是目前AI行业整体面临的问题：实验室里取得的部分成功是无法商业化落地应用的。

以上面谷歌案例为例，要想将此项成果顺利落地应用，那么机器至少能够做到识别多数场景下的各种不同品种的猫，这也就意味着初期需要采集和标注大量猫的相关图片、视频等数据以供训练算法。

然而，参考上面的数据量，“16000台电脑学习了1000万张图片”，此项目所需的数据量将达到一个天文数字。

这不仅意味着海量的工作量，还意味着高成本，更意味着项目可能永远无法落地应用。

这对于一个以营利为最终目的的企业来说是无论如何都不能接受的，摆在企业面前的只有两条路，一条是放弃，另一条是变革。

在AI界，目前有一项很重要的共识：数据集的质量决定算法模型的效果。一张高质量的标注图片抵得上几十张粗糙的标注图片，因此高质量的数据集就越来越受到相关AI企业的青睐。

作为人工智能行业的基础，数据标注行业长期处于刀耕火种的粗放状态中，披着人工智能的外衣，但是本质上仍然属于劳动密集型产业。

在AI商业化落地的大潮下，数据标注行业不应拖了行业发展的后腿，而应该主动为人工智能行业的发展保驾护航。

场景化、精细化的数据集才能撑起AI行业的未来，高质量的数据将成为破局数据标注行业商业化落地的关键。

返回列表