La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. El proceso de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios (data duty). Después de la limpieza, la base de datos podrá ser compatible con otras bases de datos similares en el sistema.

Las inconsistencias descubiertas, modificadas o eliminadas en un conjunto de datos pueden haber sido causado por: las definiciones de diccionario de datos diferentes de entidades similares, errores de entrada del usuario y corrupción en la transmisión o el almacenaje.

La limpieza de datos se diferencia de la validación de datos, que casi siempre cumple la función de rechazar los registros erróneos durante la entrada al sistema y no en lotes de data. El proceso de limpieza de datos incluye la validación y además la corrección de datos, para alcanzar datos de calidad.