商业智能(Business Intelligence,简称BI)正如雨后春笋般蓬勃崛起。商业智能起始于决策支持系统,早期伴随着计算机的普及,有了长足的发展。后来,IBM公司提出“数据仓库”概念,同时,硬件的扩充、软件的更新、数据库在企业的广泛应用等使商业智能真正地破茧而出。
近些年,在数据仓库的基础上,在线联机分析(OLAP)、数据挖掘技术开始大行其道,目前,智能商业能帮助企业做的事情已经越来越多,而且正在从传统功能向增强型功能转变、从单独的商业智能向嵌入式商业智能发展。停滞多年的BI又一次吸引了大量公司的战略视角。今天数猎哥就来说说商业智能(BI)。
1.商业智能BI的定义
BI是Business Intelligence的英文缩写,中文解释为商务智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。简单讲就是业务、数据、数据价值应用的过程(百度百科)。
换句话来说,BI是一套完整的解决方案,可以将来自企业的不同业务系统(如ERP、CRM、OA、BPM等,包括自己开发的业务系统软件)的数据,提取出有用的数据进行整合清洗,在保证数据正确性的同时,进行数据分析和处理,并利用合适的查询和分析工具快速、准确地为企业提供报表展现与分析,为企业提供决策支持。
简单概括这个过程所体现的三个大的部分就是:数据源收集,数据仓库的数据准备,可视化报表展现和数据分析。
2.商业智能BI的本质
对企业来说,商业智能BI不能直接产生决策,而是利用BI处理后的数据来支持决策。核心是通过构建数据仓库平台,有效整合数据、组织数据,为分析决策提供支持并实现其价值。
BI最终展现给用户的信息就是可视化报表或视图。需要注意的是,报表是一个结果,只能达到查询的效果,查询仅仅只能告诉我们结果是什么、有没有问题。而基于可视化图表背后的数据分析才能告诉我们问题的原因是什么,只要问题发现了,原因也找到了,那么企业业务人员或者管理人员如何去决策就会变得简单与轻松。
3.商业智能BI的开发周期
商业智能BI是一个完整的解决方案,需要进行专业项目实施与部署。既然是项目,就有开发生命周期。一个完整的商业智能BI项目需要经历以下几个阶段:
这里需要注意的是,在实际项目实施过程中,以上的每一个阶段都存在很大的变数,例如业务架构自底往上的调整、分析需求的变化、业务数据计算逻辑的变更等。所以商业智能BI项目如果需要顺利实施就需要权衡好客户实际资源能力、项目支持力度,客户对商业智能BI的期待,项目后期的风险,客户的实际投入和长远规划...
大数据研究机构Gartner给出了这样的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产”。
商业智能BI和大数据是两个不同的概念,简单来说,BI相对于大数据更倾向于分析模式,用于决策,适合支持经营指标支撑类的问题;大数据则内涵更广,倾向于刻画个体,更多的在于个性化的决策。
其实,企业内部有大量的机会可以通过优化业务流程和集中决策来节省资金。在业务遭遇大挫折时,商业智能BI能带来一线曙光,产出显著的投资回报率ROI。例如,阿尔伯克基市的就业者使用商业智能BI软件来识别机会以减少使用手机通话,加班及其他营运开支,三年期间为这个城市节省了200万美元。
同样地,在商业智能BI工具的帮助下,丰田汽车公司意识到对它的运货商双倍地付费,于2000年总数达812,000美元。利用商业智能BI来揭示业务流程中存在的缺陷的企业,与仅用商业智能BI来监控会发生什么事情的企业相比,在成功的竞争中处于更有利的地位。商业智能BI在企业中的应用主要表现在如下3个方面:
1.可视化报表的展现
在BI中,使用柱状图、饼状图、折线图、二维表格等图形可视化的方式将企业日常的业务数据(财务、供应链、人力、运营、市场、销售、产品等)全面展现出来,再通过各种数据分析维度筛选、关联、跳转、钻取等方式查看各类业务指标。
这些分析展现内容基本上是围绕各个业务部门日常工作展开的,这里面有很多的业务分析内容可能需要复杂的计算规则,需要从不同的业务系统获取数据,并且这些数据在业务系统软件中都是很难直观看到的。
这个层次的可视化报表分析就是一种呈现,让用户对日常的业务有一个清晰、直接、准确的认知,同时解放了业务人员手工利用Excel的各种函数做汇总分析、制图的工作,提高了工作效率。比如,财务部门会关心今年的营业收入、目标完成率、营业毛利润率、净资产收益率等;销售部门会关心销售金额、订单数量、销售毛利、回款率等;采购部门会关心采购入库金额、退货情况、应付账款等等。
2.数据的“异常”分析
数据的异常分析利用的是对比分析法。业务人员通过可视化报表呈现,如果发现了一些数据指标反映出来的情况超出了日常经验判断。这时就需要要对这些 "异常" 数据进行有目的的分析,通过相关联的维度、指标使用钻取、关联等分析方式探索出可能存在的原因。
例如,一个网站或产品,正常情况下每个月的平均用户注册量是10万左右。但是发现在今年的 8 月份,会员注册量达到了 23 万,这就是一种 "异常",远远超过经验判断和预期。这时我们就要去分析判断是因为市场部门的推广,还是做了大型促销活动导致的。
当然除了正向的异常,也有可能出现负向“异常”,比如注册量只有5万,这时也是需要我们通过分析找到原因,并在以后避免发生类似的情况。
最终业务人员通过一次或者多次的维度和指标图表构建,逐步形成了一种比较可靠的、固化的分析模型。这个阶段的业务人员不再是被动接受来自图表中反映的信息,而是通过"异常"数据来定位到背后的一个业务问题,数据和业务在这个层次开始有了直接对应关系,这时可以利用数据图表之间的逻辑性关系寻找解决方法,提高企业的经营效率。
3.业务建模分析
业务建模分析通常是由精通业务的业务人员提出,通过合理的建模找出业务中可能存在的问题,将其反映在可视化报表上,并最后要回归到业务,形成决策并不断优化的一个过程。业务建模简单来说也可以理解为一种业务分析的逻辑思维模型,只是用数据、图表化的方式将它们有效组织起来去验证我们对业务分析的逻辑判断。它可由一个或多个图表组成,也可通过一组或多组数据图表支撑,依据企业的业务模型来确定。
业务建模分析区别于前两点,它是一种更深层次的业务数据的主动设计和探索分析。需要更加深入业务,围绕一个一个业务分析场景展开,对业务的认知要足够深。这里需要注意的是具体的分析场景很难由专业的BI开发人员来提出。业务分析建模需要由专业的业务人员且具备数据分析思维意识的人员来推进和主导,再辅助合适的数据分析、挖掘或统计工具,这样商业智能BI的价值才能在企业得到充分的发挥,数据的价值也才会得到充分的体现。
那么BI到底是如何工作的?商业智能BI是一个复杂的技术集合,它包含ETL、DW、OLAP、DM等多个环节(这里的几个名词后文会有详细解释)。如图所示,简单的说,就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP处理后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。
1.ODS(Operational Data Store)
ODS是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。一般在带有ODS的系统体系结构中,ODS都设计都有如下特点:
(1)在业务系统和数据仓库之间的数据过渡层:如果业务数据来源比较复杂,一般采用构造ODS的方法来实现收集当前需要处理的数据。如下述数据来源:①业务数据库种类繁多。业务交易系统使用了不同种的数据库,如DB2、Informix、Oracle、SQL server、文本等;②不同的应用系统、不同的地理位置;③订阅数据源;④批量还原非传统数据库数据……等等。用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。
(2) 保存当前或接近当前的细节数据,以供查询或ETL检错使用。
(3) 数据存储周期性。ODS中存储的数据都是临时的,每次ETL之前都要清空ODS中存储的数据。
2.ETL(Extract Transform Load)
操作型业务数据库(DB)到数据仓库(DW)的过程称之为ETL,它实现数据的抽取,转换及装载工作。①抽取:将数据从各种原始的业务系统中读取出来;②转换:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来;③装载:将转换完的数据按计划增量或全部的导入到数据仓库中;
3.DW(Data Warehouse) 数据仓库
数据仓库的官方定义是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库的特点:面向主题;集成;非易失;时间轴。数据库与数据仓库的区别:
4.OLAP(On-Line Analytical Processing)
即联机分析处理,是BI的一种全新的数据封装方式,直接产物是报表或Cube(如图所示),是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
说到OLAP,我们会很自然地想起OLTP(联机事务处理系统),现在来比较一下OLTP与OLAP的区别,如下所述:
5.数据可视化展示
数据查询是最简单的BI应用,输出可视化报表是BI最直接的产物,根据数据连接,加工过程及用途,应用模式大致可以分为以下四种:
①格式报表:带格式的数据集合,如:交叉表等;
②在线分析:多维数据集合,如:Cube等;
③数据可视化:信息以尽可能多的形式展现出来,目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识,如柱图,仪表盘等;
④数据挖掘:从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。
1.业务分析需求的把控
对于很多准备或者正在规划商业智能BI项目的企业来说,业务分析需求的梳理是整个项目开始的第一步,往往也是最困难的,主要表现如下:业务部门往往提不出比较具体的分析需求,而IT部门很难深入到业务,也提不出适合业务部门的分析需求。BI项目需求分析涉及到很多部门,有的时候内部资源的沟通、协调都是很困难的...
那如何能够非常清晰的梳理好一个完整的业务分析需求,并且能够用业务部门能够理解的语言进行有效沟通?正确的做法是,提供方案的原型图,这样能激发业务人员说出需求的欲望,并让双方站在可以相互理解的角度沟通,最终出来的效果也能更好的符合企业的期望。
2.数据资源的整合清洗
企业的数据可能是来自外部系统,也可能来自内部的不同业务系统,比如CRM系统、ERP系统,或者业务人员的Execl表格, 这些统称为数据源。这些数据通过ETL工具原封不动的抽取到一个叫做ODS或者STAGING的数据库先存放起来。这里需要注意数据是存放在一些数据表中,但是并不是所有的数据都需要抽取出来,只有有用的数据才会被抽取。涉及到一些数据需要去重、合并计算、格式转换,比如 15/10/22 转换成 2015-10-22等都属于转化阶段;加载阶段是,最后把数据统一加载到数据仓库 中。
3.数据仓库的架构设计
数据仓库的开发,可以理解为一种技术,也可以理解为一种方法论或解决方案。在商业智能BI中,数据仓库就是最核心的那一层,起到的就是一个承上启下的作用。往下承接各类数据源中的数据,往上支撑各类可视化分析报表。数据仓库的构建水平将直接影响到商业智能BI项目的整体质量。
4.可视化分析报表逻辑设计
这里的可视化分析报表的逻辑设计主要是依据前期的业务人员搭建的数据指标体系而定,主题利用常见的可视化图表来做业务数据的展现,这里DataHunter就能帮到你了。Data Analytics是一个轻量级业务数据可视化平台,可一键快速接入企业本地和云端内外部Execl/CSV等数据文件,无需编程仅需简单的拖拽即可制作酷炫的数据可视化看板,用直观的数据帮你做更好的决策。
商业智能BI的表象是可视化分析报表的呈现,但它的本质还是业务问题、管理问题。商业智能BI数据分析来源于业务,通过数据呈现发现业务问题,比如好的或不好的,经验之内或之外的 ,然后再次回到业务,重新优化提升业务运营的一个过程,这就是在商业智能 BI 中数据到信息、信息产生决策、决策产生价值的真正内涵。