数据集划分:
训练集:用于估计模型
验证集:用于确定网络结构或者控制模型复杂程度的参数
测试集:用于检验最优的模型的性能
典型的划分方式是训练集占总样本的50%。而验证集和测试集各占25%
K折交叉验证法:
当数据总量较少的时候,使用上面的方法将数据划分为三部分就不合适了
常用的方法是留少部分做测试集,然后对其余N个样本采用K折交叉验证法,基本步骤如下:
将样本打乱,均匀分成K份
轮流选择其中K-1份做训练,剩余的一份做验证
计算预测误差平方和,把K次的预测误差平方和的均值作为选择最优模型结构的依据。
将数据集切分为训练集和测试集:
train_test_split函数:sklearn的model_selection提供,能够对数据进行拆分,其使用格式如下:
sklearn.model_selection.train_test_split(*arrays,**options)
如果传入的是1组数据,那么生成的就是这一组数据随机划分为训练集和测试集,总共2组。如果传入的是2组数据,则生成的训练集和测试集分别两组,总共4组。
使用sklearn转换器进行数据预处理与降维
sklearn转换器三个方法
sklearn把相关的功能封装为转换器。使用sklearn转换器能够实现对传入的Numpy数组进行标准化处理,归一化处理,二值化处理,PCA降维等操作。转换器主要包括三个方法:
fit
transform
fit_transform