随着大数据时代到来,人工智能科学已成为人们关注的热点,因为它早已不再是一门单独的领域,而是已经蔓延至生活场景中,每天都有新的算法模型被开发出来,在那些优秀的模型背后,是大量数据集的积淀,数据会直接影响最后的模型成果,只有选择合适的数据集才能发挥算法的最大效果,创造出完美的机器模型。
数据集如何选择
目前,机器学习中最常见的数据集包括图像数据、离散数据及时序数据等,不同的数据集对应不同的任务,因此在选择数据集时,除了那些经典数据外,适合自身算法模型的数据才是
最重要的。
数据集也有大小之分,在选择数据集时,数据量的大小同样值得注意。通常来说,经典著名的数据集年限较早,数据量也较少,这就比较适合规模小的模型训练。而对于规模较大的算法模型,就需匹配大数据集,随着算力算法的提升,近年来大规模数据集越来越多,为许多算法模型提供海量数据支撑,虽然规模庞大可以为模型提供更细致的指导,但在训练中也会更加耗时。
数据集的利用
开源数据集是很多人的首选,但如果选择开源数据就会面临两个问题。数据集的预处理与分割问题。首先第一个问题,开源数据集大多都是根据作者当时的模型需求产生,而这种数据很可能并不符合现阶段的需求,不能直接将数据集用到算法模型上,而是要经过一些特殊处理,例如改变数据格式、填充数据特征等才能应用至模型。因此,尽管开源数据集可以节省我们创造数据集的时间,但在数据处理中仍会花费许多精力。
在数据分割方面也有许多事项需注意。尽管目前计算机水平已达到一定高度,仍无法解决数据供给与需求的矛盾,许多小规模算法模型在面对大规模数据时无法全部利用,所以如何筛选对应数据也是不可忽视的问题。在此种情况下,可以根据模型大小,随机抽取该数据集中训练与测试同比例的数据进行测试,而抽取比例的多少可根据反复实验得出。