回溯统计的发展历程,从小数据到大数据的分析思路均源于验证性数据分析,因此,业务需求尤为重要,而需求从何而来是由数据分析师所处的行业而定的。
数据分析的需求来源包括阅读运营报告、痛点研究、未来战略方向。
运营报告综合了一家公司所有的业务,也是一种“数字语言”。运营报告可以告诉我们:
下文将从阅读运营报告、研究痛点和未来战略方向几个方面展开讨论。
学习业务最快的方式不是埋头干活,而是研究运营报告。
谈到运营报告就不得不提及数据库。我们经常将数据库喻为“数据海洋”,其数量和内容之多超出我们的想象。就电商公司而言,数据库装载几千张表是很正常的现象,每张表的数据从几十列到上百列不等,整个数据库至少有几万列数据。一名数据分析师仅仅了解这些字段(基于描述类工作),估计没有一年半载是办不到的。
运营报告包含很多有用字段,凡是能在报告里出现的字段都是经过业务人员过滤并经过几年的持续修改而成的,这恰恰包含了数据分析所需要的统计信息。
如果事先有对业务问题进行总结,那么运营报告中的字段将得到大幅缩减。例如,如果消费者关注商品颜色,那么运营报告需要提及这一字段,并设计相应的营销方案;相反,如果最近业务更加关注客户满意度,那么商品颜色这一字段就用不上了,运营报告自然也不会提及这一字段。由此看来,数据库中只有部分字段能够充分利用起来(通常认为只有不足10% 的字段经常被使用),而其他字段可能暂时还没有用。
运营报告通常分为年报、季报、月报、周报,甚至还有日报,建议经验较少的数据分析师收集最近两年的运营报告。年报和季报提供公司的运营目标,其内容比较少,因此数据分析师可以背下来。月报是重点,需要反复阅读,并标注已发生的重要事件,数据分析师需要达到非常熟悉的程度。例如,当提到今年3月的数据峰值时,数据分析师应该回忆起当时发生过哪些业务事件。
周报涉及短期的业务行为,往往是数据分析师的“试验场”a,通常并不重要。上述工作建议在6个月内完成,这是数据分析师进入新环境的适应时期,过了这段业务学习黄金时期再进行业务学习的成本会很高。
公司每段时期出现的问题都会呈现在报告中,问题所在之处就是量化y。有了y后,需要对问题进行归因,而变量x就是结果y的归因因素,因此寻找影响因素x是建模的主要过程。寻找x,不是从数据海洋中搜寻,而是判断运营报告中提到的字段。
理论上说,报告中涉及的字段都有可能成为y或x,但企业在每段时期暴露的严重问题涉及的字段才最有可能是y,而且y并不会很多,因为大多数问题,只有几个主导的因素。例如,订单下滑、满意度不佳、活跃度不够等问题的根本原因可能是广告投放失效,那么广告投放就是当前的y。x是归因的依据。模型是寻找影响因素最快捷的方式,如果能够掌握数据分析方法,那么搜寻x的过程就简捷多了。
我们是否需要寻找报告之外的x呢?这实际上涉及数据分析的创新,但创新是发生在夯实的业务基础之上的。也就是只有具备了数据分析技术、业务知识,再加上时间的积累,创新才有望发生。数据分析师职业生涯前2 ~ 3 年,无须寻找这部分x。
数据降维(x 的筛选过程)和角色问题确定后,需要做的是模型搭建。数据分析师应该用“点→线→面”的思路来完成业务梳理,进而完成构筑模型所需的一切业务准备。只有把点的问题还原成面的问题,痛点问题才有望被解决。
点的问题就是造成损失的环节。例如,商品导致的业务问题,如毛利润太低、供应商供货问题等。损失之处就是因变量y。然后围绕因变量y 探讨解决方案,这就是自变量x 与因变量y 间的结构关系,y 的问题就是点的问题。线的问题,即自变量x 是如何影响因变量y 的,其重点在寻求归因,即整体结构。如果我们将各部门发生的事件归纳起来,并通过点和线的分析方式将这些事件编织成面的问题,然后使用统计技术控制每个环节,促使业务问题与统计解决方案同步,那么统计方法将得到有效的运用。
企业在某段时间可能会面临某个严重的业务问题,企业所有资源和人力都将用于解决这个问题,数据分析师当然也不例外。企业每个时期的痛点各不相同,问题一般会持续3~6 个月。那么数据分析师如何进行痛点研究呢?例如,老客户流失严重,首先需要找到y,如果数据库中没有字段与该问题对应,则需要想办法构建人工字段b,即用商品购买周期的两倍来预判客户流失(这是人工字段)的严重性。有了y 后,要寻找影响因素x,构建客户流失模型。完成模型构建后,在因变量与自变量间归因是不是就自然发生了呢?最终就能找到痛点的真正原因了呢?显然,据此得出的结论过于单薄。
痛点问题是很多问题的综合性表现,且一个模型能解释的信息是有限的。对痛点问题进行归因是环环相套的。例如,问题的表象是产品活跃度下降,而直接导致产品活跃度下降的原因是产品满意度下降,但产品满意度下降是由物流滞后引起的,而物流滞后的原因是供应商没有按时交货,供应商没有按时交货的原因是当前产品盈利有问题,产品盈利有问题的原因是品牌效应下降。
品牌效应下降也许是问题的根源,也许不是,但数据分析能够发现归因链条上的最后一环吗?答案是很难。
研究痛点仅仅是帮助我们发现归因链中有问题的环节,而此环节必须还原到产品或行为分析的框架中才能有效地归因,否则就会出现“头痛医头”的现象。有一种叫作路径分析的统计模型可以在归因链上追本溯源。路径分析是数据挖掘中常见的分析技术,该技术的前提条件是将模型放在大的业务环境中,才能够理顺因果链条问题,所以点问题必须放到面问题中才能发挥作用,否则归因只会浮于表象。
数据分析之锚,犹如远方地平线上的一棵大树,以此为锚不会偏离方向。
一个案例场景如下:小王刚刚在某公司任职金融部数据分析主管。该公司规模较小,但风控管理良好。此时,老板将目标设为开拓市场、增加市场份额,但小王仍把最“精确”的模型放在重点位置,以此为方向来调校模型和管理团队。
以上案例中小王存在如下三个问题:第一,越“精确”的模型越不精确。所谓“精确”只是看起来精确,实际上可能过拟合;第二,风控严格会将更多客户排除在业务范围外,不利于增加市场份额,易丢失开发新市场的动力;第三,过度强调信用评估,会耗费很多财力和人力资源,从而导致资源分配不合理。
数据分析也有周期,有时老板并不看好数据分析的结果,但又不能不做数据分析,此时数据分析师的工作量会比较少。
在此期间,笔者建议数据分析师可做如下事情:
第一,调试模型使“精确”变成精确,以符合当前应用场景。模型判断的准则永远是业务标准,而最了解业务之人当属老板,所以老板确定的方向出错的可能性很小,要相信此锚。
第二,数据分析团队应该适当地转移工作重点,如参与线下业务活动,以了解营销、物流配送、供应商谈判、客服等业务,从而了解业务与数据间的关系,但不要本末倒置。
第三,参加数据分析培训。
除以上“软”问题外,如果方向不清楚,如下“硬”问题也很难确定。
• y 的量化标准是什么:分类变量还是连续变量?测量级别的具体形式是什么?
• 残差的正常范围判断模糊:哪些是真正的异常值?
• 影响因素的选择:选择哪些x ?
• 算法的精确性判断:选择算法1.0 还是算法3.0 ?
• 特征选择算法的不确定性。
如果读者是一名数据分析“小白”,不妨参阅如下建议。
如果把数据分析师分为初、中、高三个级别,那么初级“小白”是不建模型的,至少刚工作一年内的数据分析师应如此。因为模型及应用的成败受数据库质量、模型管理(数据清理等工作)、业务与营销协同等因素的综合影响,这需要大量的业务准备工作,很难一蹴而就。模型失败,一方面,影响建模者的自信;另一方面,错误的结论往往会带来业务损失,影响同事和老板对数据分析师的看法。
因此,从业一年内的数据分析师建的模型,最多只能运用在周报中,不可以用于年度、月度等运营报告,并很少用于提供决策支持。这里需要强调的是,这是数据分析师在进阶过程中必要的保护环节。
所有模型都是错的,因为每种模型都有严格的假设。如果不满足这些假设条件,那么模型在很大程度上要进行“折扣”处理。下图(a)是数据挖掘模型,该模型前期需要大量的数据清理、对接及变换等操作,这是数据流中常见的清理准备。下图(b)是统计分析模型,并不需要严格的数据管理,它的问题是数据是否满足假设条件,如正态分布、异方差检验、结构关系的合理性、共线性及内生性处理等。
因此,尽管所有模型都是错的,但通过模型优化就可以使它们发挥作用。几乎没有人能一次构建好模型,如下流程是一个参考——不管数据质量如何,先“上架”第一版模型,此时模型的各项指标都不好也没关系,继续优化模型,一次只调整一个问题,如默认值填补等,将模型升级为第二版,再判断各项指标,重复执行以上过程,直到各项统计和业务指标都达标。
小数据分析比较擅长处理抽象及潜在行为问题,而潜在行为无外乎态度行为,在客户购买行为链中,可以使用态度行为的三要素理论:认知、评价、行为a。态度行为的三要素之间存在一种非常复杂的交互关系,人们可以通过测量某个要素,来推断其他要素或态度。例如,一个客户经常购买某品牌牙膏,由此可以推断该客户对该品牌比较了解,对该品牌的评价也不错。又如,某客户对某件外衣赞赏有加,由此可推断该客户未来可能会产生订购行为。小数据的行为分析就是通过研究如何量化抽象变量(如态度),来推测显在行为(如产生购买),即由潜到显的过程。
大数据分析比较擅长处理非抽象的客户行为问题。在大数据环境下,数据库里的字段大多以显在测量为主,如订单频率、积分等,但预测问题需要潜在变量。为构造潜变量,大数据分析使用了结构整合技术,即通过整合多个显变量来构造潜变量,是由显到潜的过程。
如果要知道客户的行为动机,但在数据库中无论如何也找不到与此对应的列,即没有y,并且业务专家也没有告诉你y 的具体形式,那么你需要第一时间告诉老板,这是数据分析无能为力的地方。如果将行业趋势分成如图1-4 所示的10 个阶段,其中1 ~ 5 阶段是行业上升阶段,6 ~ 8阶段是行业下行阶段。在行业上升阶段中,数据分析主要起到开源作用;在行业下行阶段,数据分析主要起到节流作用,不管是开源还是节流都是优化现有业务。
模型尤其擅长解决第7 阶段和第9 阶段的问题,即局部优化;但解决不了第10 阶段的问题,即扭转商业颓势。因此,目前来看数据分析可做业务优化,但无法产生革命性的商业变革。
数据分析师并不直接面对市场,商品推荐系统、营销方案优化、客户满意度、客户细分画像、销量预测等项目即使没有数据分析也能正常运作,因为公司存在业务专家。但一家公司能有几位业务专家呢?从目前来看,可以肯定的是模型的“业务能力”还无法与业务专家相比,但也可以肯定模型的“业务能力”处于业务“小白”(不足1 年工作经验)和业务专家(8 年以上工作经验)间。不管是统计算法模型还是智能算法模型,模型的“业务年龄”为2 ~ 3 年。