数据分析项目中常犯的12种错误,对于数据分析师来说都会接触很多的数据项目,在进行操作过程中常常会遇到一些问题,也避免不了会犯一些常见的错误,影响最终的数据分析报告呈现,今天我们就通过DataHunter与大爱一起来探讨一下大家可能会范的错误。
1、 不监控最终结果
使用控制组的另一部分作用是测量模型的输出的效果,你需要在整个过程中跟踪它,或者最终针对错误的目标优化。
Steinert指出:有的公司使用机器人来提供电话服务,而且不持续检查机器人是否能够带来更高的客户满意度,只庆幸减少了人力成本。如果客户结束合作是因为机器人无法给他们正确的答案,而不是因为解决了他们的问题,那么客户满意度将大幅下降。
2、 忽略业务专家的作用
如果你认为需要的所有答案都在数据中,而开发人员或数据科学家可以自己找到它们,那就大错特错了。你必须要确保了解实际业务问题的人参与这项工作中。
Ortiz建议,开始项目时,甚至在查看数据之前,要在数据团队和业务专家之间进行对话,以确保每个人都清楚项目要实现什么效果。然后,你可以做探索性的数据分析,看看你是否能够实现它,如果不能,你可能需要用一种新的方式重新表述这个问题,或者采用一个不同的数据源。但这个具体领域的专家应该帮助确定目标是什么以及项目是否符合目标。
3、 选择过于复杂的工具
机器学习的最前沿是令人兴奋的,新技术可能非常强大,但它们也可能是多余的。Shah指出:“也许像逻辑回归或决策树这样的简单方法就能完成这项工作。” Ortiz对此表示赞同。
人们很容易将大量的计算机资源和复杂的模型用于解决问题。也许我对一个项目的某个方面有着很好的理解,我想测试一个全新的算法,这个算法可以做的比要求的更多。或者我只是想尝试一下是否能找到一个简单的方法来解决这个问题。在使用复杂办法之前,应该将所有简单的办法考虑一遍” Ortiz说道,注意到过拟合更可能发生在像深度学习这样的复杂算法中:过拟合可能使新数据不符合原有模型。
你应该与业务专家商量目标然后选择技术。很多数据科学家关注机器学习,机器学习往往关注的是预测。但不是你面临的每一个问题都是预测问题。我们需要关注上季度的销售情况,这可能意味着很多不同的事情。我们是否需要预测新客户的销售额,有可能你只需要知道为什么在上个季度的某一周销售情况不佳。
4、 选择不合适的模型
有很多数据科学和机器学习的例子,你可以从中学习和适应。“数据科学热度呈指数增长的原因之一是几乎所有算法的开源模型都可用,这使得快速开发模型变得很容易,”Shah解释说。但是这些模型通常是针对特定的用例开发的。他说,如果你从系统中需要的是不同的功能,那么最好构建自己的版本。实现自己的数据清理和功能构建过程。他建议道。“它给你更多的控制权。”
5、 曲解基本概念和基础原理
当你没有足够的数据用于单独的训练集时,交叉验证可帮助你评估预测模型的准确性。对于交叉验证,你可以分几次设置数据,使用不同的部分训练。然后分次测试模型, 以确定是否无论你使用哪部分数据集进行训练都能获得相同的精度。
但是你不能用它来证明你的模型总是和它的交叉验证分数一样准确,Ortiz解释道。一个可归纳的模型是对新传入的数据作出精确反应的模型,但交叉验证永远无法证明这一点。“因为它只使用你已经拥有的数据,它只是能显示你的模型的尽可能准确的数据。”你对数据集进行的探索性绘图可以让你了解它可以预测什么,以及哪些数据值不会告诉你任何事情的相关性。
6、 低估用户的理解能力
Ortiz指出,业务用户可能无法自己进行统计分析,但这并不意味着他们不了解错误边际、统计意义和有效性这些指标。通常,当一份分析报告提交给商业团队时,它最终会变成一张只有一个数字的幻灯片。无论是一个准确的数字、一个估计还是一个预测,误差范围是非常重要的。如果在数据分析的基础上做出商业决策,那么就要清楚地说明解释结果来使决策者相信这个系统,不要认为他们在技术上什么都不懂,无法理解结果。
通过上面的分享,希望可帮助大家更好的避免在数据分析项目中遇到这些错误,更多好的做好数据项目,更好的提升每个数据分析的能力。更多有关数据分析工具的相关了解,请关注:DataHunter