数据集对于模型训练非常重要,好的数据集可以有效提高训练精度和效率。MindSpore提供了用于数据处理的API模块mindspore.dataset,用千存储样本和标签。在加载数据集前,我们通常会对数据集进行一些处理,mindspore.dataset也集成了常见的数据处理方法。
首先导入MindSpore中mindspore.dataset和其他相应的模块。
In [3]:
数据集处理主要分为四个步骤:
1.定义函数create_dataset来创建数据栠。
2.定义需要进行的数据增强和处理操作,为之后进行map映射做准备。
3..使用map映射函数,将数据操作应用到数据集。
4.进行数据shuffle、batch操作
In [4]:
其中,batch_size为每组包含的数据个数,现设置每组包含32个数据。