数据划分;数据集切分:把一个数据集按用途分成不同部分(常见为训练集、验证集、测试集),用于建模、调参与评估,减少“只在已见数据上表现好”的风险。(在机器学习与统计建模语境中最常见)
/ˈdeɪtə splɪt/
We used a 70/30 data split for training and testing.
我们用 70/30 的数据划分来进行训练和测试。
To avoid information leakage, the team performed the data split by time so that the model was evaluated only on future data.
为避免信息泄漏,团队按时间进行数据划分,使模型只在“未来”的数据上被评估。
data 源自拉丁语 datum(“给予之物、给定之物”),后来发展为“资料/数据”的含义;split 来自古英语 splittan(“劈开、分开”)。组合成 data split,字面即“把数据分开”,在现代数据科学中固定指“将数据集切分为不同用途的子集”。