数据集的预处理与分割，你知道吗？

时间：

2022-04-24

分享到：

随着大数据时代到来，人工智能科学已成为人们关注的热点，因为它早已不再是一门单独的领域，而是已经蔓延至生活场景中，每天都有新的算法模型被开发出来，在那些优秀的模型背后，是大量数据集的积淀，数据会直接影响最后的模型成果，只有选择合适的数据集才能发挥算法的最大效果，创造出完美的机器模型。

数据集如何选择

目前，机器学习中最常见的数据集包括图像数据、离散数据及时序数据等，不同的数据集对应不同的任务，因此在选择数据集时，除了那些经典数据外，适合自身算法模型的数据才是

最重要的。

数据集也有大小之分，在选择数据集时，数据量的大小同样值得注意。通常来说，经典著名的数据集年限较早，数据量也较少，这就比较适合规模小的模型训练。而对于规模较大的算法模型，就需匹配大数据集，随着算力算法的提升，近年来大规模数据集越来越多，为许多算法模型提供海量数据支撑，虽然规模庞大可以为模型提供更细致的指导，但在训练中也会更加耗时。

数据集的利用

开源数据集是很多人的首选，但如果选择开源数据就会面临两个问题。数据集的预处理与分割问题。首先第一个问题，开源数据集大多都是根据作者当时的模型需求产生，而这种数据很可能并不符合现阶段的需求，不能直接将数据集用到算法模型上，而是要经过一些特殊处理，例如改变数据格式、填充数据特征等才能应用至模型。因此，尽管开源数据集可以节省我们创造数据集的时间，但在数据处理中仍会花费许多精力。

在数据分割方面也有许多事项需注意。尽管目前计算机水平已达到一定高度，仍无法解决数据供给与需求的矛盾，许多小规模算法模型在面对大规模数据时无法全部利用，所以如何筛选对应数据也是不可忽视的问题。在此种情况下，可以根据模型大小，随机抽取该数据集中训练与测试同比例的数据进行测试，而抽取比例的多少可根据反复实验得出。

返回列表