将数据分成两部分:训练集和测试集,通常使用 80% 的数据进行训练,20% 的数据用来测试。

验证集

单独分出来一个保留集合作为验证集,防止调整模型和超参数拟合测试集的最佳模型。

交叉验证

为避免验证集浪费太多数据,交叉验证将训练集分成若干个互补子集,然后每个模型都通过这些子集的不同组合来 训练,之后用剩余的子集进行验证。