数据清洗常见的问题是什么?数据清洗是通过检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。通俗来讲就是把脏数据清洗掉,提高数据质量。 那么在数据清洗过程中会遇到很多的问题,今天我们通过数据分析公司-DataHunter与大家一起来探讨一下吧!
一、处理离群点
对离群点最简单的解释是:离群点是和其余数据不匹配的数据点。按照惯例,任何过高、过低或者异常(基于项目背景)的数据都是离群点。作为数据清洗的一部分,数据科学家通常要识别出离群点并用通用的方法解决它:
1、删除离群点的值,甚至是离群点对应的实际变量。
2、 转换变量值或变量本身。
二、改善数据
通过改善进行数据清理是另一种常见的技术,添加相关信息、事实或数据使得数据变得完整(可能更有价值)。这些附加数据的来源可以是用数据中现有信息或从其他来源添加信息进行计算。数据科学家花费时间完善数据的原因有很多。
基于当前的目的或目标,数据科学家补充的信息可能用于参考、比较、对比或发现趋势。
典型的用例包括:
1、衍生事实计算
2、对比日历与财政年度的使用
3、转换时区
4、货币转换
5、添加当前和前期指标
6、计算价值,如每天总出货量
7、保持缓慢变化的维度
三、数据调和
基于研究分析的整体目标,数据科学家可以通过数据调和来转换、翻译、或将数据值映射到其他理想值。最普遍的案例是性别或国家代码。例如,如果你的文档中将性别编码为0和1或M和F,你想将数据转化为一致的MALE或FEMALE。
四、标准化
大多数主流数据科学家都已经注意到在开始统计研究或分析项目之前,将数据标准化作为数据清理过程一部分的重要性。这是很重要的,如果没有标准化,量纲不同的数据点对分析的贡献会不均等。
如果你认为在0到100之间的数据点比0到1范围内的变量影响更大,你可以理解数据标准化的重要性。使用这些未经过标准化的变量,事实上在分析中赋予较大范围的变量更多的权重。为了解决这一问题并均衡这些变量,数据科学家试图将数据转化为可比的量纲。
数据点的中心化是数据标准化中最常见的例子(尽管还有很多)。为了使数据点中心化,数据科学家把文件中的每个数据点减去所有数据的平均值。
了解了数据清洗可能会出现的问题,更好的应对这些问题,才能做好数据清洗。更多有关数据可视化工具的相关了解,以及有敏捷BI的相关了解需求,请关注:数据分析公司-DataHunter