数据分析：从Table到Cube

只看该作者 · 发表于 2017-6-30 11:43:02

企业的决策人员需要从不同的角度来审视业务，分析业务，以做出最优决策。对于这件事，最初我认为就是整理一些报表。但是，随着做数据的深入，我对这件事的认知有了一次升级，BI领域中的数据分析需求不是一张二维报表就能满足的，它需要的是一个多维的立方体（Cube）。

来看一个例子。分析师小A发现本周业务有了历史性的突破：毛利终于转正啦！为了探查这个数据背后的原因，小A打算从两个方向进行探索：第一，分解维度：所有城市都转正了吗？所有车型的都转正了吗？本周每一天毛利都是正向的吗？第二，拆解指标：毛利=收入-成本，是收入增加了还是成本降低了？如果是收入增加了，那么是收入中的哪一项费用增加了呢？为此，小A至少需要查看分城市、分产品、分日期的毛利报表，收入报表，成本报表。从这么多张报表中收集到这些数据本身就不是件简单的事。此外，即使这些数据已经集中在一张报表中，从中查看跟此次业务相关的数据也需要耗费大量的时间。

为什么Table无法高效的满足数据探索需求呢？根本原因是，Table只构建二维关联，无法构建字段之间的聚合、分解等纵向关联。而构建这种多维关联需要另一种数据结构：Cube。

先看一下对于上面的例子，使用Cube是如何探索的。

首先小A发现毛利指标Cube转正了。于是他先分解维度探索：通过Cube下钻（Drill Down）得到这个指标在城市，车型，用户级别上的各项指标。发现除成都外，其他城市都未转正。于是他就只看成都切片（Slice），又发现除舒适性车指标转正外其他都正常，于是再进一步切片，探索成都，舒适性车本周的指标走势…。经过不断的探索，最终小A发现原来是在本周一，成都客服调整了一次收入费用项导致最终毛利指标转正。

在以上的数据探索过程中，小A不用迷失在多张Table的各个表格中。他在最初的Cube上，通过下钻，上卷，切片，切块，旋转等操作，一步步深入探索，最终找到指标变化的决定性因素。而这个过程最核心的就是Cube提供的这些操作，如下图所示。

最后简单总结下Table和Cube。Table是面向存储的，相对静态的。Cube是面向分析的，相对动态的。Cube底层的存储可能就是一张Table。通过Cube分析得到的结果可能也是一张Table。引入Cube是为了让用户可以从多个角度探索和分析数据集，让数据分析过程更有效，更便捷。

数据分析：从Table到Cube

本帖子中包含更多资源