永洪科技销售副总裁王桐今日在接受Arch Summit的专访中谈到,敏捷、高性能和自服务这三点,是敏捷BI和传统BI最核心的区别,敏捷BI将逐渐取代传统BI。以下是采访全文。
1.大家好,我现在在ArchSummit的大会现场,今天十分高兴邀请到永洪BI合作总监王桐接受我们的采访,首先请您做一下自我介绍,包括现在您在永洪BI做一些什么事情?
王桐:我现在主要在永洪BI做行业的解决方案,和与合作伙伴以及客户的商务合作方面的事情。永洪BI以前可能知名度比较低,现在逐渐开始有越来越多的人听说这家公司。我们做的主要是数据格式化分析这个领域的系统软件,主要是帮助分析人员快速的用一些非常简单灵活的方式去分析他们手上的各种数据,得到数据的洞察和可视化的结果。从技术的角度来讲,是属于敏捷BI这个领域,目前来讲,我们已经完成了产品的成熟度设计和开发,在很多行业里面也在不断的取得的拓展方面的工作。
2. 你们大概什么时候开始做,去年主要是一些落地的扩充吗?
王桐:我们从五六年前开始研发这个产品,从底层的分布式文件系统,到上层的计算引擎,再到前端可视化分析工具,整个这一套完整的架构是我们自己研发的,中间闭门开发花了三到四年的时间,所以差不多是从去年年底,到今年的时候,才算是真正把产品打磨的足够优秀,然后主动的去做一些营销和推广。
3. 您之前在数据库领域有多年的经验,BI虽然和数据库是不同领域,但也是有非常长的时间,那么讲讲敏捷BI是怎么一回事,它是一个像敏捷开发一样的理念还是怎么样?
王桐:理念的话,跟敏捷开发有一定的共同之处。敏捷BI是相对于上一代的传统BI而言的,上一代BI和新一代的敏捷BI这个概念也不是永洪提出来的,而是Gartner在今年第一季度的BI魔力象限报告里边的核心观点,就是现在敏捷型的BI已经成为大势所趋,会逐渐补充,甚至替换传统的BI,那么这两者的核心的区别是什么呢?原来传统BI,我们的做法是对数据仓库里面的数据做一些相关的建模,做好提前的计算和汇总,做一些中间表和cube,再在前端做图表类的呈现,这是我们过去做传统BI的思路。这个思路持续了很多年,也很成熟,但是很多的CIO和CTO也会反映,它存在着两个比较大的局限,或者说是可改进提升的地方,第一个地方就是它非常的不灵活,从需求的提出到需求的实现,至少是以周为单位去进行才能够完成,有的时候甚至更久,到月的级别,因为中间业务部门跟技术部门要反复的进行沟通和协作,技术部门要做复杂的建模和技术上的处理,才能够完成整个处理过程。另外一个局限就是原来一个公司里面比如说一百个人,可能九十个人都是有需求的业务人员,另外10个人是懂得操作传统BI的复杂系统的技术人员,业务人员的需求技术人员是永远跟不上去满足的,所以有很多业务人员的分析需求,是不能够被传统BI所覆盖到的。这两个局限就催生了业务用户方产生新的需求,就是能不能够有一个以他们为中心设计的,非常灵活的,很快速的就能够看到分析结果的工具,供他们使用进行分析,这个需求就催生了技术领域里面发生的传统BI到敏捷BI的升级,所以对比起来,敏捷、高性能和自服务这三点,是敏捷BI和传统BI最核心的区别。
4. 那敏捷着重在哪些环节来改善?
王桐:说到这个问题的话,我们可以先看一下原来传统BI的整个分析过程,业务人员提了分析需求以后,沟通给技术人员,技术人员理解透了这个需求以后,做建模,做中间表和一些cube,然后把计算跟汇总的OLAP层做好,在前端开发或配置展现层,这是过去整个的分析的工作环节。最花时间的是在沟通和做cube的OLAP层,会花掉差不多百分之八九十的时间。对于敏捷BI来讲,核心的也就是要解决怎么把这两部分的时间去掉,实现敏捷的过程。以前我们之所以要反复的沟通,是因为技术人员做cube,做二次表的时候,这种建模的工作是业务人员自己不能够完成的。这个工作之所以要做,而且技术人员做起来也比较费劲,原因是原来我们用关系型的数据库做计算,它的性能是不足以支撑海量数据的秒级响应的,比如说原始的数据库的表是上亿行或者十亿行,百亿行的数据,没有办法让业务人员在前端点击察看分析结果的时候,在几秒钟之内就能够得到结果,可能要跑几分钟,甚至是几个小时才能够得到结果,那这个系统肯定是不可用的。所以以前我们怎么做呢?我们就把上亿行,或者十亿行的这张原始表,提前计算汇总成一个中间表,或者是一个cube,这个cube可能就只剩十万行,或者是百万行,对于数据库来讲,它的计算性能就能够得到保障,这是过去这个事情之所以复杂的最本质的原因。现在各种大数据的计算技术都越来越成熟,我们可以把底层的计算引擎建立的足够的强壮,可以比原来的关系型数据库快几百倍以上,那么我们就有能力做到不管是千万,还是十亿,百亿的数据量,都可以基于原始的细节数据,在几秒钟之内实时处理好的计算的结果,如果能够做到这一点,那也就意味着,不需要提前做计算和处理,因为实时的响应是足够快的,也就意味着不需要做中间表和cube,技术人员不需要再做这部分的工作了,所有的事情业务人员自己就可以完成,他在前端通过一些字段的拖拖拽拽,把自己分析的图表、报表,或者是一些数据展示出来就可以了,完成一个自服务的过程,这是敏捷BI提升的本质的原理。
5. 听起来计算能力的提升是最本质的?
王桐:很多人以为是前端是拖拖拽拽的,就是一个敏捷BI,这个理解是错误的。因为传统BI,它的前端也有可能是拖拖拽拽完成的,拖拽字段生成图表的这种前端交互是没有技术门槛的,因为用户跟系统之间的交互,无外乎就是通过键盘输入,鼠标点击和鼠标拖拽,这三种形式来完成,所以真正考验敏捷BI的能力是在看不见的底层,就跟百度虽然只有一个框,但是后台可能有成千上万的研发人员在做底层技术引擎的支撑是一样的道理,所以底层看不见的技术引擎,决定了敏捷BI能够走多远,是基于一百万,一千万的数据,能实现敏捷BI的效果,还是基于一个亿,一百亿的数据,也能够走敏捷BI的路线,这是完全不一样的事情。
6. 那以前可能需要一个星期完成的事情,现在只需要几秒钟,就能够完成了?
王桐:几分钟吧。
7. 几分钟就能够完成,那它是不是会带来很大的文化上的改变,包括是不是整个团队也会在制度上有一些改变,一方面是更好的使用这个东西,另一方面是不是有一些防止滥用的机制,就是对整个文化的冲击?
王桐:其实敏捷与否,跟数据是否会被滥用不会有很大的直接关系,只要我们把数据的权限隔离做得足够的好,它就不会是一个问题。这个对于企业的一些协作方式和运营上的流程,会有很大的改变,比如说,原来可能在周会上面,大家讨论发现了一个问题,想要知道这个问题的原因是什么,我们要把这个问题记下来,让数据人员,或者是技术人员,帮助我们去把决策所需要的基础,或者说数据的指标计算好,交给我们,等到两周以后的例会上面,再去讨论这个问题。那么现在相当于我们有能力做到,大家开会的时候讨论这个问题,当下就马上把数据快速计算好,然后看到结果是什么样的,然后继续讨论,他会把数据分析的过程变得有极快的速度的提升,把周期尽量的缩短,让我有实时决策的可能性,这样的话,对于不管是互联网企业,还是传统企业,从决策的角度和从对业务洞察的角度上来讲都是一个巨大的改进和提升。
8. 你们现在也是很多用户来自传统企业,包括国企,也有很多互联网企业,甚至有一些比较新的公司是不是也在用你们的服务?
王桐:对,像比如说人人车,积木盒子,百程旅行网等等这样的一些互联网企业,都是我们的用户,也有很多的,比如像移动,电力,像一些银行等等,也是我们的传统企业的客户。其实传统行业跟互联网行业,它的分析诉求会有一定的区别,互联网行业它的分析的思维和sense是更强的,而且人员对于数据的运用能力会比传统企业普遍来讲要强一些,所以对于互联网企业,他更多的希望有一个工具给他,他自己去运用就可以了。对于传统企业来讲,以前可能普遍是以看报表为主,现在随着互联网思维理念的普及和大数据理念的普及,很多传统企业也开始醒悟,在做转型,开始意识到数据不是狭义的理解为看一些报表,而是要完成一个分析,找到问题,并且得到答案,然后去完成一个业务决策的过程,是整个的一个闭环。所以传统企业对于分析的要求也越来越高,但是传统企业的需求,对比互联网企业,它的变化性不会那么的快,所以他们使用上的诉求和特征还是会有一定的区别,但是共同的一点是大家对于数据的运用都非常的重视,因为知道数据对于打造数据运营的智慧型的企业是唯一的选择,所以现在大家对于数据分析的投入和重视度都是非常高的。
9. 最后一个问题就是现在面临的挑战,或者是下一步的计划大概是怎么样的,比如说这次的主题演讲也有一个假设说可能实时数据的价值比历史数据要高,是不是也有这方面的需求提到你们这?
王桐:实时的数据跟历史的数据,他们其实有各自的价值,从我的角度来讲,很难去判断谁的价值更高。比如说在6.18做大促,想关注实时的定单、销量的情况,肯定要看实时的数据;包括去做DMP和DSP,或者去做广告投放,或者要做风控、决策这种实时性的事情的时候肯定实时数据是非常重要的。但是如果要对过去三五年的经营状况做一些分析来看趋势,这个时候用实时数据是做不了的,肯定是要用历史数据来做,所以数据的价值取决于用户的需求场景是什么,来选择合适的数据范围和数据类型来支撑实现需求。对于永洪来讲,我们会有这样几个方向的计划,一个方向会把底层的计算引擎打磨的更加强大,在分布式计算和高性能领域里面能够支撑的数据量和性能越来越优秀,这个是第一点。第二点就是在前端可视化分析这块,把应用性和交互性做的更进一步,让业务人员用起来更加无缝和顺畅。从公司整体的策略来讲,可能现在我们主要做国内的市场,年底我们计划会去美国开分公司,跟Tableau, QlikView会有正面的PK,这是发展层面的一些计划。
InfoQ:今天十分感谢王桐接受我们的采访。
|