data cleansing(也常说 data cleaning)指对数据进行“清洗/净化”的过程:识别并纠正或删除错误、重复、缺失、格式不一致、异常等问题,使数据更准确、更一致、更适合分析、建模或入库。(在某些语境下也称 data scrubbing。)
/ˈdeɪtə ˈklenzɪŋ/ (也常见 /ˈdætə ˈklenzɪŋ/)
Data cleansing takes time, but it improves accuracy.
数据清洗很耗时,但能提高准确性。
Before we trained the model, we performed data cleansing to standardize date formats, remove duplicates, and handle missing values.
在训练模型之前,我们先进行数据清洗:统一日期格式、去除重复记录,并处理缺失值。
cleansing 来自动词 cleanse(“清洁、净化”),与 clean 同源,核心含义是“去除污物/杂质”。在信息技术语境中,“污物”被类比为数据里的错误与噪声,因此形成了 data cleansing 这一说法,用来强调把数据“变干净、可用”。