“中关村大数据产业联盟”推出“大数据100分”论坛,每晚9点开始,于“中关村大数据产业联盟”微信群进行时长100分钟的交流、探讨。
【大数据100分】冯大志:大数据技术浅析以及大数据在行业中的应用
主讲人:冯大志
主持人:赵国栋
承办:中关村大数据产业联盟
冯大志曾任IBM信息管理资深专家,资深数据库专家,大中华区VIP客户关怀经理。IBM大数据智能分析产品线技术销售经理。现任云基地大数据公司高级咨询经理。
以下为分享实景全文:
大家好,我今天分享的主题是《大数据技术浅析以及大数据在行业中的应用》
谢谢,赵秘书长提供这么好的一个机会和大家一起交流我对大数据技术和行业应用的一些看法,也希望能够对各位在各个行业落地大数据起到积极的作用. 下面我就开始了哈。
在去年每次提到大数据的时候,往往大家都会提到所谓的四个V。但是大数据的概念走到今天,其实已经发生了很大的变化,内涵和外延也有了更多的含义。
甚至美国谈到的大数据和我们国内所理解的大数据都有不同,可以说人人心中都有自己的“大数据”,自己理解的大数据技术和大数据的商业模式。
从技术的角度来剖析,其实以hadoop为代表的大数据技术,与传统,在行业中已经广为应用的数据仓库的技术,也具有一脉相承的特性。所以,第一部分我先介绍一下,我所理解的大数据技术,以及我所了解到的其在传统行业中的应用场景。
我看到这样一句话,对于大数据的定义,虽然不全面,但是我认为是值得一提的:大数据是一场基于时代发展的IT洞察,是基于人类生产生活所带来的数据和人机、机器与机器之间更紧密通讯带来的数据聚合。
可 以说大数据这个概念的发展与延伸与互联网企业,互联网思维密不可分。以hadoop为 代表的大数据技术包括了大家耳熟能详的分布式文件系统即hdfs,分布式计算框架即mapreduce,还有运行在其上具有类似数据库构架的开源组件,这 里包括了hbase,hive等等。具体的技术有很多,包括了管理、调度、性能优化等等。
其 实这里面提到的所有的技术,在传统的关系型数据库框架下,都已经发展的很成熟了。比如 数据仓库领域内的几大厂家:teradata、ibm的db2和netezza,以及oracle的数据仓库一体机产品exadata,还有最近势头强劲 的emc的greenplum等等。可是为什么传统的企业不用这些产品,而更加关注与以hadoop为代表的大数据技术了呢?
我认为有以下几个原因:
1.互联网的发展和移动互联网的发展,尤其是互联网企业,以数据为核心的商业模式的逐渐清晰,让传统企业突然觉得自己拥有了一座金山,却没有完全挖掘其价值。好奇新的趋势,使传统企业更加关注于互联网企业所使用的技术。
2. 以hadoop为代表的大数据技术,在某些特定的场景下,确实相对于传统的存储、小 型机、关系型数据库的组合中,在不考虑维护成本的前提下,具备了一定的性能优势和价格优势。例如,国内当时最大的数据仓库是移动某个省的经分系统,有几十 台ibm的小型机构成了一个具有近百个节点大型数据仓库系统,运行的是db2数据库,其造价和成本是非常高昂的。
但是,这里仅仅存储了运营商里的最核心的数据,还没有包括上网行为数据和心领数据,这对传统的技术体系,和价格体系是个挑战。
3. 以hadoop为代表的分布式的数据算法能力的提升,对于传统企业而言,增加了数据 挖掘所能处理的数据规模和效率,这一点对于企业是很重要的。例如,我们在某保险公司,针对其全量的近一亿的客户实现全量的客户分群、客户流失某型的建立, 保险产品相关性的分析,都是建立在全量数据的分析基础上。
这对于通过抽样,算法训练,不断反馈迭代的传统数据挖掘可以说具有颠覆性的意义。我同意@牛一壹 的观点,所以,我们现在给客户推荐的很多大数据解决方案,采用的都是一种混搭的架构。让最合适的技术,去解决其最擅长解决的问题。
我们是一家以产品为驱动的大数据的公司,我们希望通过这样一个技术的特点跟传统的技术的集成来解决一些问题。但是在实际的过程当中,其实我们渐渐发现一些问题,有维护的问题,有开发的问题。
包 括在传统的金融行业内,我们第一次把hadoop引入到了银行的核心系统。虽然作为核 心中的C类系统,我们依然感受到了hadoop技术在传统的行业内所面临的诸多挑战,包括了产品的稳定性,应用架构如何与既有的产品和技术相结合,如何满 足银行严格的安全体系和合规要求,如何满足银行要求的灾备功能,以及如何在后续的管理和维护中显著的降低成本并融入到客户的标准维护体系内。
所以,对于大数据产品的定位,我认为首先是企业的友好型,可管理,可维护、稳定。
没 错,这三个技术实际是要在不同的应用场景里解决不同的问题的。内存计算更多的是要满足 低延时的应用要求,但是分布式的内存计算对于产品的开发能力要求特别高,否则很容易出现内存的问题;流计算也是大数据的一个重要的分支,目前国内有很多实 际的需求,我们也测试过strom所构建的流计算架构,可能由于投入人力的限制,其效率和稳定性一直无法达到较好的水准,处理一些简单的规则是可以的。
hadoop@牛一壹 的定位其实很准确,适合做数据的批处理。我们知道数据处理的应用场景,通常分为两种类型,一种是面向交易型的,一种是面向分析性的。
交 易型的应用场景就像我们在12306上买火车票或者到银行实时取钱一样,对于数据的一 致性、可回滚、高可用具有非常高的要求。传统关系型数据,由于在这些方面的设计考虑了很多,而且增加了非常多的冗余,因此当有的厂家例如Oracle讲起 数据库应用到数据仓库的批量分析领域,就会遇到很多问题。
hadoop和SQL的关系其实是非常有意思的问题。
以我现在对于客户需求的理解和市场上开发hadoop的人力资源的感受,我认为SQL on hadoop是未来的大势所趋。
最根本的问题,市面上找熟练使用SQL的人太多了,但是会在hadoop上开发的人太少而且价格昂贵。
SQLon hadoop目前就我的了解大概有这么几个方向,供大家参考,也希望大家补充。
第一个方向比较土,通过强大的网络将hadoop集群和传统的关系型数据库相结合,利用传统的关系型数据库的优化器进行SQL解析,利用内嵌的用户自定义函数(UDF)作为桥梁,链接SQL和hadoop上的操作。数据通过网络回传至关系型数据库,再进行计算。
这样做最简单,但是问题是效率和数据量不可控,有一定的实用场景。
第 二个方向呢,是传统的hadoop社区目前做的事情,开发新一代的yarn技术,希望 能通过优化器的改进和存储的优化,解决在hadoop上使用SQL的性能问题。这也是一个非常好的方向,但是以我对于传统关系型数据库优化器的理解,这里 需要的功力非常深,也是传统厂家的一些核心技术领域,不是特别容易突破。当然yarn比上一代已经快了很多了,这是事实。
第 三个方向比较取巧,也是现在有些国外的公司做的,就是将hdfs作为传统数据库的表空 间容器,利用传统数据库的优化器统一解析,当然在底层的文件系统接口,成本优化模型和统计信息获取方面做了大量的开发。这也是目前很主流的一个方向。但是 即便如此,对于SQL函数的支持,以及性能的稳定性依然存在一些不足。
spark+hadoop 的组合,限于我们接触客户的需求,确实我们还没尝试在实际应用 中使用。但是决定一个技术能否推广的因素有这么几个,供您参考: 1 it技术是否可以标准化、具有可复制性,能够,除了解决需求之外,还具有成本可控的维护性和达到一定要求的稳定性。2 是否很容易在这个平台上自定义开发自己的应用。
像腾讯,阿里据我所知,已经将hadoop和hive应用到了其日常数据分析的很多领域,但是你却很难看到他们站出来对外输出自己的it能力。有能力,跟有产品是两回事,呵呵,我的理解。
这 个消息我看到过标题,但是最近时间太紧,后来就忘记仔细看内容了。我觉得任何技术的选 择都是价值和成本的综合考虑的结果。如果,使用一项技术虽然对于人力的成本要求较高,但是能够很好的给企业带来价值,同时传统的技术做不了或者成本更高, 那么当然就要选择,反之,任何一个因素出现了变化,都是要考虑未来技术取舍的。所以我还是认为,让最适合的技术解决其最擅长的问题。目前还没有一项技术能 够解决所有问题。
现阶段的大数据一定是行业的大数据,也就是说春江水暖鸭先知,当整个行业发生变革的时候,大家可能最有动力用这个数据作为驱动来作为这个行业转型的一个突破,所以这是行业的大数据。
谈到C++重写,确实国外有一个产品叫mapr其实就是把底层的架构都重写了一遍,提供兼容hadoop接口的api,性能有很大的提升,解决了spof等许多问题,大家有兴趣可以关注。这家公司的很多大牛在开源社区也负责了很多项目。
大数据的范畴除了包括hadoop、流计算、内存计算、分布式数据等等之外,很多人也把传统的ETL和bi可视化也包括在了大数据的范畴。
非结构化数据的处理我们也在研究。对于文本处理而言相对成熟一些,对于视频和图像的处理,我们也在尝试和一些高校合作。我个人更看好图像处理未来的前景。
这对数据仓库的压力非常大,扩容频繁,时间窗口满足不了。但是如果用hadoop处理ETL相关的一些数据质量和数据转换的工作,能够极大的提高数据仓库的使用效率,降低扩容周期和成本,更多的应用可以上线。
在大数据时代,bi也即将焕发新生。传统的bi是针对企业领导的,新的bi能否面向基层的决策人员甚至消费者。从战略、决策到实操,降低决策风险,降低决策的反馈周期,对于企业还是具有重要的意义的。
互动内容:
Q1harry 濬:@冯大志 大数据背后是大融合与内在的普遍联系,发生在当下有两个重要因素:1、互联网物联网的数据贡献和普遍联系;2、科学再次进入融合阶段,因为原先各自学科已 经很极致到撞了南墙,必须各学科再次融合才行。事实上各学科也就是相通的,否则宇宙之初的引力波发现,也就不敢夸口说距离统一理论构建不远了。
Q2 回到北京-BrianLai:@hadoop 有几个致命问题。一个是实时数据的写盘的多个nodes 性能问题,另外一个是recovery的问题。内存计算解决的快的问题,如KDB 在金融叶大量应用,但是内存计算在金融上对交易型大数据最怕的掉电,如果掉电,那交易数据无法发送。其它方面的业务,内存计算绝对速度有优势,但是价格是 问题。@冯大志 说的很到位,Hadoop is not suitable for lowlatency redundancy system.
冯 大志:@回到北京-Brian Lai 对于您提到的问题,第一个我没有特别清晰的了解,我认为hadoop不是一个适用于实时要求性比较高的场景,当然spark作为内存计算倒是可以一试。而 且hadoop的数据导入也分为导入到hdfs和导入到之上的hbase。这两方面确实存在一些导入性能无法,但是完全可以在工程上针对特定的场景找到解 决的办法。
Q3牛一壹:hive/implala属于第三种场景?
冯大志:@牛一壹 应该是属于第二个场景,即社区通过自己的研发和改进提升sql on hadoop的性能和能力。其它两种都是借助外部数据库的优化器而为之。当然,现在有些大的厂家正在研发自己的一套基于hadoop的数据库产品,大家可以拭目以待。
Q4张涵诚:@冯大志请教 企业有大量的日志数据(各种app、web),每天300G,要做实时分析,比较实惠的解决方案是?hadoop spark storm 还是商业系统?
冯大志:@张涵诚 这个问题不太好回答,即便是实时分析,也跟怎么分析相关联。如果只是简单的基于规则单独处理这些日志,可以strom就够了。如果涉及的逻辑有点复杂,就像银行的复杂规则一样,则需要专业的内存处理能力,spark也是一种选择。
张涵诚:@冯大志 赞你的观点: SQL+hadoop 我了解有个有个互联网视频企业,有2%的交易数据,8%的人为数据,90%左右的机器数据,他们采用3个不同的系统处理的非常好。
Q5张存勇:SQL+Hadoop在数据交互容量小的情况下还行、一旦大容量并发有瓶颈问题,是否SQL能力问题?
冯大志:@张存勇 肯定不是sQL能力的问题,呵呵,这个我可以肯定。一般来讲交互的瓶颈取决于io或者网络,或者比较笨的优化器。
Q6赵国栋:大志,阿里这种自己特别的系统更有前途呢,还是hadoop主版本自然演进更有前途?这涉及开源软件未来发展趋势的问题。
冯 大志:@赵国栋 我认为从生命力来看,开源社区的生命力会更加顽强。因为有更多的大牛在上面开发。就像我的老东家IBM,都在建设基于其power cpu 开放体系。但是从成功的角度看,确实不太好说。可能每种体系都会有各自阶段上的成功,如果阿里的平台非常好用,大家很容易学,而且能给企业带来其它技术无 法提供的价值,那么他一定会成功,不论是否开源。
Q7张涵诚:@冯大志我有个朋友,有10多年的报告数据(下面各个分公司提交的分析报告),10个T左右,要建立集中搜索管理平台,是不是用文件数据库系统比较好?
冯大志:@张涵诚 您说的问题可以用solr试试,我们做过类似的尝试。把一个省公安系统的8大主题库集中,实现数据的融合,并在此基础上实现搜索查询,效率提升的非常多。
张 涵诚:@冯大志 对的,完全是两会事,非结构化的大量流数据占大数据90%以上。感谢,感谢@大志 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现 了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
Q8张存勇:国内数据系统以前大多基于SQL运行的,进入大数据时代不可能前端处理不可能放弃SQL,后期的大数据后台处理分析采用Hadoop再传回SQL好像不太顺。
冯大志:@张存勇 ETL其实比较适合在hadoop上实现的。现在很多的场景不是ETL:抽取、转换、加载。而是elt:抽取。
张存勇:@云基地冯大志 视频数据主要有模式识别,特征抽取,视频分析等,比如海量视频数据人脸识别、体征识别,计算量超大。
冯大志:@张存勇 而且还有很多算法目前还不能实现并行处理。
Q9Dowson Liu (刘睿民):@冯大志 我的感觉应当先normalize非结构化数据,在特征值出来后,再用MPP DW处理才更有效。
冯 大志:@dowsonliu 您说的很对,现在某省公安系统实现身份证去重就是这种做法,但是比对算法的并行度较低。我说的图像处理有很多其它的应用,比如发现淫秽图片,统计人流量, 寻找特定相貌或者穿着特定衣服的人,等等。其实大数据的关键点和数据仓库很像,数据规范、标准和质量是永恒的话题。
Q10 回到北京-BrianLai:大数据目前大家讨论的一直是data over hadoop or any otherdistributed and secured data system, 但是更关心的是核心技术的突破,如大数据的性能,安全,标准化,采集,传输,可交易化及多媒体向text的算法。
张 涵诚:大数据是各种价值的高质量的数据和长尾数据,“垃圾”数据的总和,垃圾如果利用 的好是有用,看怎么用了。应用成本过高是现在人不愿意利用的主要因素。所以我们要要降低大数据管理治理“垃圾”的成本,提供利用的价值。数据源不规范是对 的,否则还谈什么全量数据,大数据,但是同一接口,集中管理,就需要。
冯 大志:非常同意,从行业的大数据,到大数据的行业,再到大数据生态系统。需要企业、政 府、法律法规等多方的力量。但是这应该是一个大的趋势,我相信也是群里大部分人共同的观点。这是这个信念,让我聚集在一起。回到北京-Brian Lai 您提到性能,安全,标准化都是我们在实际项目中真真切切遇到的问题。其实每一项都很复杂。24小时客服服务热线:4001616691
联系我们
Copyright © 2002-2020 北京中科新远科技有限公司 版权所有 京ICP备19012332号-1 京ICP备19012332号-1
地址:北京市-海淀区-上地信息路7号 昊海大厦305室