用户登录
用户注册

分享至

【现场直击】陈超:建立数据驱动的文化

  • 作者: 齐钰她二姐
  • 来源: 51数据库
  • 2020-12-22

    2015年7月19日,以“开源大数据技术的生态与应用”为主题的“第四届中国大数据应用论坛”在北京大学隆重举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,北京大学CIO班教务办公室和北达软协办,CIO时代网承办。活动当天来自业界的专家领导、大数据专家、技术大咖、知名企业CIO、知名媒体等近200位嘉宾参与了此次盛会。本届论坛的主题聚焦开源大数据技术的生态与应用,嘉宾们分别从不同的侧面揭示了大数据技术本身的发展与行业应用趋势,带给了台下嘉宾们很多的干货以及经验分享。


    七牛云技术总监陈超先生为大家带来了题为“建立数据驱动的文化”的主题演讲,以下为演讲实录:


七牛云技术总监 陈超

    感谢大家来参加这次的会议。我自我介绍一下,我是陈超,是七牛云技术总监。我过去一直参加技术性会议多一些,谈的更多的是技术方面的事。刚刚的发言谈到Spark发展特别迅速,其实我个人过去两到三年一直在国内推动Spark这个事,如果大家有所关注,可能会有所了解。但是今天我想讲的主题跟技术本身没有多大关系,主要是结合我过去几年的经验跟大家分享一下,除了技术之外,我们如何让你的,不仅是数据团队,而是从整个公司层面讲,包括市场、销售、运营等方面做一些决策。我们现在每天的API访问量非常大的量级,存储也是非常大。我们每天处理的数据量也是非常庞大。


    什么是数据驱动的文化,为什么要建立数据驱动文化?有的公司就是招一些工程师,搭建一个数据平台。其实这个对你的提升是很有限的。对于这个问题,希望我做完报告之后大家会有一个简短的答案。大家经常用到R语言等专业工具做数据建模。其实不只是这样子。现在的企业基本上是用这些技术(Hadoop、Storm、Kafka/Flume、Cassandra/Hbase、ElasticSearch)做架构。事实上我给的建议,可以选择一些社区比较活跃的工具。有些工具看起来很酷,但是出了问题只能自己解决。但是如果说社区活跃的话,可能会有之前的一些经验参考。从技术上看是比较成熟的,那我们现在是讲,技术归根到底是一个工具,而我过去几年感受是,如果说你真的想做数据驱动这个事,工具就是其中之一,那么其他两点就是数据和文化。如果这三点结合,数据驱动文化就会建立的比较好一些。


    其实好多公司会招聘更多数据分析师来狂写SQL。但这有一个很大的问题是,它的持久力并不强。比如说你天天做的事情就是写SQL,并且很多SQL非常类似,但由于细微的不一样,你得重复的写,显然这对你自己内在创造力是有很大的威胁。所以狂写SQL这一段,包括我自己曾经也这样干过。而接下来我想说,想去建立一些数据驱动文化的企业我有一些想法。首先我们要明确目的。因为数据有很多优先级,如果把所有数据优先级都当成最高的优先级对待的话,因为你的数据处理很有可能跟不上,比如说你第一时间只能处理20%的数据,这个时候就要明确一下哪些数据是你最关心的数据。如果说这些数据恰巧实施性也比较高,那么你就可以把它灌到实施处理工具中,永远是聚焦在核心数据中。第二是开放数据。现在是什么呢?比如说你是市场副总裁,你要看一个报表。算出来,给他看一下。真正难处不在。我们是要让更多人看到数据。大家都能看到某些数据的话,能激起他一些灵感或者建议。


    我们之前有很多例子,有些时候人的思维定势就是这样。有些时候在条件允许的情况下,就是要开放数据。有些是像驾驶舱一样的开放,有些是源数据的开放。自由建议。这个看起来简单但做起来比较难。特别是传统企业,我之前有一个朋友做数据官,他就跟他们老板做交流的时候,因为很多老板认为这个事情应该这么干,但是数据出来的结果跟他的冲突比较严重。在这样的情况下,这个企业能不能允许员工自由提建议,非常Open,某种程度上决定这个企业能否建立一个真正以数据驱动的文化。我们公司就是对于数据有什么看法你可以讲出来,不怕讲错。就算你错了也不怕。为什么不怕?就是跟持续测试有关。但是现在我们的测试,有一个测试是灰度测试,比如说我们做灰度上线。什么意思呢?比如说有一千台服务器,其中有几百台做数据转换工作,我们新上一个,我们可以把其中1%的量切入其中,99%的量还是在原来的集群里。如果说新的量有问题的话,它自动会切到旧的里面去执行。它的好处在于,就是几乎可以无损失的测试。所以现在它就成为一个必须要经过的环节。经过持续测试以后会发现,你会越来越有信心,越来越敢进来。为什么?因为后面有测试帮你把关。比如这个事有问题,会在测试阶段发现的。所以持续测试这个事情是在我们建立,就算说某些企业觉得这个数据驱动文化不是那么强烈的情况下,测试这件事情也是必不可少的。


    定量取证。现在我们企业报告有一个规定,就是不允许用比较多非常定性的词,比较好、还可以,这些词不行。好不好,我们由大家来判断。不要说比较好。那么为什么好呢?你不要先一个人下结论。你把具体的数字写出来,报告出来,我们一起看这个事。所以大家要注意,建议大家能定量的尽量定量,不要做那些比较模糊的事情。


    付诸行动。这是一个很好的环节。花了大力气建了一套系统,最后数据出来了,你又没有特别的行动,这个问题是很严重的。为什么?不止是说你这个行动本身成功也好、失败也好,那是对你本次的测试、上线一条线路没有完成,更严重的是没有形成一个闭环。所谓的数据永远是闭环的,它有一个迭代的过程。形成闭环会形成更快、更准的决策。这类决策可以精确到个人,运营部、市场部、销售部,每个人通过数据可以作出对应的决策,应该跟哪个数据讲什么样的话、数据。第二就是大家参与之后会比较有存在感,会非常乐意干这个事情,就可以变成一个良性循环。有些人觉得这个事情对他很有成就感,他就非常乐意做这个事情。再就是创新文化。通过这个我们会收到意想不到的结果,使得企业一直会有新的东西出来,比如新的销售方式、市场运营的方式。这些都是我们自己经历过的。


    我们给到的建议:要建立高质量的数据平台;快速让员工看到数据。我们做任何决定时,如果说你给我做一个决定,请问,你有数据支撑吗?最后,仍然需要专业的数据科学家与数据分析师。我的报告就到这里,谢谢大家!


软件
前端设计
程序设计
Java相关