用户登录
用户注册

分享至

【现场精彩】陈晓攀:结构化大数据的行业应用

  • 作者: 那晚越女说我?
  • 来源: 51数据库
  • 2020-12-22

    2015年7月19日,以“开源大数据技术的生态与应用”为主题的“第四届中国大数据应用论坛”在北京大学隆重举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,北京大学CIO班教务办公室和北达软协办,CIO时代网承办。活动当天来自业界的专家领导、大数据专家、技术大咖、知名企业CIO、知名媒体等近200位嘉宾参与了此次盛会。本届论坛的主题聚焦开源大数据技术的生态与应用,嘉宾们分别从不同的侧面揭示了大数据技术本身的发展与行业应用趋势,带给了台下嘉宾们很多的干货以及经验分享。


深圳市汉云科技总经理兼技术总监 陈晓攀

    深圳市汉云科技总经理兼技术总监陈晓攀先生在论坛上带来了题为“结构化大数据的行业应用”的精彩演讲,以下为演讲实录:


    各位来宾,下午好!很荣幸在这里与大家分享探讨大数据的应用。近几年来云计算、大数据是最热门的话题。我是从2008年开始研究和探索云计算和互联网的应用,到了2012年的时间开始转向做传统行业的大数据的一些方案。随着我刚刚从事传统行业大数据的研究时就发现了问题,传统行业相比互联网有很大的差异,我当时也很茫然,不知道该怎么做。随着这几年的经验积累,也找到了一些我们传统行业大数据的方案。在这里我就把我这几年的心得体会与大家做分享。


    大数据到来,不管是传统行业、互联网行业,相信所有人都不怀疑大数据的价值,在我们的行业当中、企业当中,数据主要分为三类可结构化数据、半结构化数据、非结构化数据。什么是结构化数据?结构化数据,比如ERP等。半结构化、非结构化数据包括文本、图片、HTML、各类报表、图像和音频/视频信息。在传统行业里,结构化数据占主导地位。


    这是今年5月份中国信息通信研究院做的调研,发现70%以上的企业认为数据库表成为企业最主要的数据类型。我们的信息系统,尤其是政府、国企建立了大量的信息系统,都是以数据库形式存储数据,几乎都是结构化的数据。经常我们在说,大数据带来的是从沙子里淘金。我们也可以做这样的比喻,如果把大数据结构化数据、非结构化数据分开,非结构化数据是在沙子中淘金,而结构化数据是在金矿中淘金。结构化数据远高于非结构化数据的价值。我们要做好大数据,首先要解决好结构化数据的问题。目前主流的产品是Hadoop,Hadoop是一种分布式数据和计算的框架。它擅长存储大量的半结构化的数据集。它的特点是高扩展性、高可靠性、高容错性、高效性,优势非常明显。我们中国互联网公司,包括百度、淘宝、京东,决大互联网公司都是使用这样的主流产品。


    我们做传统行业发现,Hadoop在进入政府等传统行业之后,并没有像互联网一样快速发展,而且有一些企业在用了Hadoop之后也逐渐开始发现解决不了问题,也在逐渐寻求新的解决方案。我有一个朋友,他的公司类似于携程,他们的主要任务是对企业类的交易数据、银行的数据进行比对,最早他们用微软的产品,后来大数据到来用了Hadoop,但是后来发现性能不够。后来用Spark。到了2015年又转回头用最传统的方式。我们有一个客户是公安单位,他们在2012年就使用了Hadoop,在公安行业是最早将Hadoop落地的一家单位,后来在实践中他们也是在数据分析时遇到了问题,逐渐寻求新的方案。


    Hadoop为什么在行业里面推动起来发展很慢?原因有以下几种:一是它的主要目标是为了解决非结构化的海量数据存储和查询;企业的业务数据绝大部分是以结构化行存储的方式保存。二是Hadoop是一套庞大的数据存储和处理体系,在企业内部转化为某个解决方案的成本很高,精通该技术的人员难求。


    数据仓库的现状:需要提前建立数据模型,建模周期长,还需要对数据进行预处理及建设成本高;大数据时代用户需求快速多变,数据仓库产品建模扩展性比较差,不能满足快速变化的数据分析需求。在大数据时代,数据仓库这个方案已经不能满足需求。我之前有个银行的朋友,现在银行做信用分析都是用数据仓库,但是他们的领导要有新的想法时要做数据分析验证时,把这个思想告诉科技部门,科技部门最快要一个星期,一般的话得要两三个星期。所以在大数据时代下,数据仓库也不能满足我们的需求,我们要寻求新的方式。


    根据我们在传统行业大数据实践当中,总结出了五大问题:速度慢。在传统行业里,Hadoop是解决不了问题的,已经被实践证明。扩展性差、技术复杂、成本高、安全隐患。说到安全隐患,我们现在缺少国产软件。我们在做政府项目时,包括一些政府国企项目时,实际上从他们做方案时,都想国产化。但是他们做方案时,他们想用但是找不到一款能满足需求的产品。这就是我们的现状。Oracle、MySQL等等都是国外的,他想用国产的,没有。基于这种现状我们提出了方案——天云星国产结构化大数据平台。我们和Hadoop一样,只不过我们解决的是结构化数据的问题。优势是效率高、易使用、易扩展(支持热插拔、横向扩展计算和存储能力)、高可靠(任何一点出现故障,它的服务是不会停止的)、自主产权。这是平台架构图,包括三个方面。在实施过程中为了让用户使用更方便,我们还开发了一些配套的产品,包括数据迁移、系统监控、数据魔方(针对于灵活多变的建模工具)、数据易淘、大数据研判平台。


    应用成果。我这里列举了几个案例。我们天云星在传统行业已经作出了很大成效。这几个案例都是通过媒体报道,可以找到的几个经典案例。第一个是2014年7月份协助深圳交警完成“清零行动”。三次违章不交罚款就要进行“被扣”处理。一开始他们采用Hadoop,最后没有做出来。于是就让我们天云星试一下,我们只用了十分钟。之后我们又抓到了假的士。还有天云星参与“怒路症”的整治活动,还有协助深圳交警开展“DA01”(数据“Data”+打击“Artack”)专项政治活动。以上是我对传统行业应用大数据的一些经验所做的介绍。谢谢大家!


软件
前端设计
程序设计
Java相关