弄清楚数据异常波动背后的原因,不只是为了回答老板或者业务方的问题。首先,对于产品的各种数据知其所以然,是对数据分析师的基本要求;其次,通过数据异常分析往往能够发掘背后隐藏着的未知机会或风险,这些机会和风险往往是我们平时容易忽略的,这对产品的持续优化具有重要意义。
例如,我们可以通过一次次的数据异常分析来明确造成数据波动的原因,深入了解影响业务表现的各项内部、外部因素,建立日常的的运营工作和数据波动之间的联系,同时依据因素权重大小从而找到促进数据增长的方法。
最后,我们还可以建立异常因素库,将日期、发生的事件及对应的数据影响记录下来,以便更快的复制成功的经验,避免更多的失败。
1.觉察异常问题
既然是数据异常分析,那么我们首先必须能觉察到这些异常,而这个过程往往依靠丰富的经验和对产品与业务的充分了解,也就是数据敏感性。一旦我们有了这种敏感性,只要借助基本的数据可视化报表,就能够立刻觉察异常。
这里需要注意的是数据敏感不是一个“硬”技能,也很难说有具体的操作步骤去提高数据敏感性。有些人逻辑性强,通过数据本身的相对关系就能够发现异常的存在,比如DAU和转化率都有提升而交易额呈下降趋势;而大部分人是通过平时对产品的日报、周报、月报数据进行详细分析,经过长期的主动训练做到对业务有足够深的理解来提高数据敏感性。这也是为什么有经验的人更容易发现异常的原因。
2.定位与界定问题
当我们觉察到异常问题后,下一步就要进行分析或解释,但是我们首先需要把问题界定与描述清楚。例如“昨天的App的注册量怎么下降了”,这个数据异常是否确实存在,即数据是真的下降了,还是受到了其他指标波动的影响,这个波动范围和程度是怎样的、对应哪段时间点、是否有必要花时间深入分析。
如果问题没有界定清楚,那后续的数据分析也只会在错误的道路上越走越远。这里提供以下几个方面帮你定位异常问题:
(1)确认数据源是否有误
例如一份周报或者月报,数据是从数据库中导出,如果从数据库中导出的数据都是有问题的,那最后在报表呈现的数据自然也是不准确的。
(2)统一口径或业务逻辑
统一口径包括两个方面:①数据分析人员与业务人员;②数据分析人员与开发人员。这里数据分析师在中间起着很重要的作用,能不能把业务语言准确的转化成数据库语言至关重要,如果相关人员对统计指标的理解不一致,就会导致最后不是初始想要的数据。
(3)统计结果偏差
通常最大可能犯错就是具体的数据统计过程中的错误,比如说是不是函数公式中选定的区域有误,或是看错行,很多细节都有可能造成统计偏差。
除此之外,我们可以通过排除一部分明显的内外部因素减少工作量。例如,外部因素:节假日,行业动态、相关热点事件、政策法律的变动,运营商网络状态等;内部因素:市场、运营活动的影响,产品功能上线,数据上游调整等。
3. 数据异常分析
如果数据异常经确认确实存在,那么你就要去找原因了。这个找原因的过程总结起来就是“大胆设想,小心求证”,大胆设想就是对异常产生的原因做出合理的猜测,回顾所有产品相关的信息,然后猜测一个可能造成数据异常的原因。小心求证是说在做出猜测之后,我们需要对自己的猜测负责,找到能够支持(或者否定)这种猜测的数据。
(1)大胆设想
大胆设想不是天马行空,而是有方法可以遵循,这里给大家介绍三个方法:业务拆解法、指标推进法和用户行为分析法。
①业务拆解法
我们可以从两个维度来对业务进行拆分,如图所示第一个维度是产品、竞品、大环境;第二维度是产品、技术、用户和运营。前者是因为相互竞争的产品都处于大的业务环境之中,任何一方的变动都会造成自家产品的数据变化,后者是基本概括了互联网产品的重要构成,往往数据异常逃不出这几个方面。
②指标拆解法
为先对异常指标进行拆解,确保指标拆到最细颗粒度的指标,如图所示的杜邦分析法,然后通过对比前后2个时间段上最细颗粒度指标的变化,评估哪一个指标的波动对这个指标的波动贡献度最大。
③用户行为分析法
我们可以先了解产品的运作逻辑,主要关注的是用户角色、信息和渠道,以及他们之间的流转关系是什么样的;然后了解业务逻辑,指的是要执行某个业务,用户角色需要走过的路径,会有什么角色参与,有什么功能模块;最后是在此基础上绘制出用户使用产品的行为旅程,然后评估各个行为流程节点的异常。
(2)小心求证
通过前面三种方法,我们已经列出了数据出现异常的原因,接下来就需要对数据进行一定的推理,找到直接或间接的证据来证明。对于大环境维度的数据异常原因猜测,一般可以获取一些能够反映大市场的数据来证明,比如OTA网站DAU在某月降低幅度很大,我们猜测是因为旅游淡季开始,这时候可以去百度指数看看“酒店”或“酒店预订”搜索热度的变化,或者查查往年此时的旅游消费数据,就可以验证我们的猜测是否准确。
而对于自身产品的求证主要是对比与细分的分析方法。这里的对比为基准对比分析,选取数据变化前后可对比的时间段进行对比就可以。而细分的分析维度比较多,我们只要找到该原因所代表的细分对立面做对比,就可以证明我们的设想,下面介绍一些常见的细分维度及其案例。
①分步:假设某产品的转化率数据出现降低的情况,而这个转化率是多步漏斗转化的最终转化,我们可以细分每一步的转化情况,查清是否因为某一步出了问题。比如微信支付服务器的故障会造成下单到支付的转化降低从而造成转化率降低,列表加载速度增加造成列表到详情转化率降低影响整体转化等等。
②分版本:假设某产品列表页到详情页的转化提升,我们猜测是iOS新版本中优化列表布局方式,我们需要分iOS和Android以及分iOS新版老版对比这个转化数据来证明我们的猜测。
③分区域:假设某年8月31日某OTA的交易额呈现大幅增长,我们猜测是因为大学生开学造成酒店需求增加,这时我们可以选取部分高校较多的城市如北京、武汉、西安等城市的数据来对比其他城市来侧面验证我们的猜测。
④分时间:假设某日某产品转化率数据下降,我们猜测是10:00-11:00支付服务器故障造成的,那我们只需要分时间段和上一个波动周期同期的数据对比,如果当日这个时间段转化率确实下降很大,就可以证明我们的猜想。
⑤分用户群:假设某App新版上线之后新版转化率低于旧版,经过用户分析发现新版新用户比例较大,我们猜测新用户转化率会比老用户转化率低,这个时候我们只需要看一下新老客户的转化率区别就能知道我们是否蒙对了。
⑥分场景:假设某App在某假期内转化率降低,已知异地用户转化率低于本地用户转化率,猜测假期转化率降低是因为异地用户较活跃造成的,这个时候,我们只要需要去看看本异地用户占比的变化就可以验证猜测了。
⑦分事件:假设某OTA转化率在某段时间内明显提升,而这个时间段恰好是竞对较少补贴促销活动的时间,我们猜测是竞对促销活动终止对产品转化率造成了正面影响,如果我们查看数据证实那些被竞对取消促销的事件转化率提升明显,那说明我们的猜测是对的。
经过了以上复杂的“假设-验证-细分-再验证”的步骤之后,我们找到了影响数据指标异常变化的因素,但这里的因素可能是一,也可能是多个。如果是多个因素,我们就需要通过加权重的方法衡量影响力大小,同时判断这些影响因素加起来是不是完全等于这个指标变化的幅度。最后对于关键影响因素需要抓二八定律,优化业务。
1. 避免常见错误
我们在做逻辑推理过程中,需要做到推断合理,避免常见的错误,比如相关性并不能表明因果关系、缺失对比对象、基于个案来推总体。同时在避免常见的逻辑错误的同时,也要敢于下结论,虽然结论有可能是错的。
2. 提出切实可执行的方案
数据分析的终极目的是对业务改进产生价值,基于此,分析结论之后一定要提出切实可执行的方案,即落地到业务和产品上的具体建议,确保方案可执行,效果可评估。分析报告完成之后,一定要多与业务部门进行沟通,收集反馈,听取他们需要的是什么?一起商讨解决方案。
作为分析师也要不断反馈自己,如何改进才能更有效的与业务结合?在完成了以上定性分析和定量分析之后,别忘了将以上过程进行总结梳理,当然也是为了给领导或者业务方一个交代:数据异常分析报告。一份完整的数据异常分析报告应该包括以下部分:
①问题描述:什么时间,什么指标,是上涨\下降,幅度是多少,对比的是什么;
②主要结论:将影响因素按照影响度从大到小讲清楚,并列清楚各自的影响度;
③后续跟进:异常因素发生的原因是什么,后续的解决方案是什么,解决时间;
④具体分析过程:具体的分析过程及详细数据。
注意上述各部分的顺序,一定要先讲清楚我们要分析的问题是什么,将问题讲清楚;之后就是结论,将结论列在前面,方便一些没时间看或者不关心具体过程的人看到;一定要有解决方案,不要只把问题列出来,要有后续的解决方案。
在日常数据分析工作中,数据异常是很常见的现象,我们可以通过对自身业务的理解来觉察异常数据,然后再界定与定位异常问题,其次通过业务拆解法、指标推进法和用户行为路径法来提出假设,最后运用对比与细分的方法来验证。遵照这个流程,一般能够找到数据异常的深层原因。
当然,这个过程需要花费大量的时间和精力,但经过这个过程我们能加强数据的敏感度,更全面深入地了解自己所负责的产品,形成一个良性循环,让我们能运用数据分析更快地提高业务能力。此时我们还可以借助可视化工具,例如Data Analytics,可一键接入Execl/CSV等数据文件,无需编程仅需简单的拖拽即可制作酷炫的数据可视化看板,用直观的数据帮你做更好的决策。
本文中所有图表都是借助Data Analytics软件免费版做出来的。想尝试自己做图,请访问 https://www.datahunter.cn/ 即可学习如何制作,记得先注册哦~