一、大数据的生态系统
1、大数据的高效深度分析需要专用化的系统
在应用数据快速增长的背景下,为了降低成本获得更好的能效,大数据系统需要逐渐摆脱传统的通用技术体系,趋向专用化的架构和处理技术。这方面,国内百度、阿里巴巴和腾讯三大互联网巨头做出了尝试并取得了很好的效果。众所周知,百度的大数据典型应用是中文搜索,阿里巴巴的大数据典型应用是基于交易日志分析的数据服务,腾讯的大数据典型应用是图片数据存储和基于用户行为的广告实时推荐。百度2013年底成立专门的大数据部门,旨在深度挖掘大数据的价值。阿里巴巴已将不同业务部门的大数据技术整合在一起为数据产品提供统一的服务。腾讯的数据平台部正在将全公司的数据纳入统一管理平台。阿里巴巴在技术上与开源社区结合得最为紧密;腾讯大数据目前正在向开源技术靠拢;百度在技术层面偏好自行研发,包括软硬件定制化方案也是最先投入实用。技术上,他们的共同之处是,不再依赖传统的IOE,而基于开源系统(如Hadoop等)开发面向典型应用的大规模、高通量、低成本、强扩展的专用化系统。
2、大数据处理架构多样化模式并存
当前,克隆了Google的GFS和MapReduce的ApacheHadoop自2008年以来逐渐被互联网企业所广泛接纳,并成为大数据处理领域的事实标准。但2013年出现的Spark作为一匹黑马终结了这一神话,大数据技术不再一家独大。由于应用不同导致Hadoop一套软件系统不可能满足所有需求,在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出现并不是取代Hadoop,而是扩大了大数据技术的生态环境,促使生态环境向良性化和完整化发展。今后在非易失存储层面、网络通信层面、易失存储层面和计算框架层面还会出现更多、更好和更专用化的软件系统。
3、实时计算逐步受到业界关注
Google于2010年推出了Dremel,引领业界向实时计算迈进。实时计算是针对MapReduce这种批量计算的性能问题提出的,可分为流式计算和交互式分析计算两种模式。在大数据背景下,流式计算源于服务器日志的实时采集,如Facebook开源的Scribe是分布式日志收集系统,ApacheFlume是类似的系统。ApacheKafka是高吞吐率的分布式消息系统,特点是高通量和容错。Storm是容错的分布式实时计算系统,可以可靠的处理流式数据并进行实时处理,单机性能可达到百万记录每秒。Storm可集成ApacheKafka作为其队列系统。作为批量计算的补充,交互式分析计算的目标是将PB级数据的处理时间缩短到秒级。ApacheDrill是开源的Dremel实现,虽已有应用但尚不成熟。由Cloudera主导的Impala也参照Dremel实现,同时还参考了MPP的设计思想,目前已经接近实用阶段。Hortonworks主导开发了TEZ/Stinger,TEZ是运行在YARN(Hadoop2.0的资源管理框架)上的DAG计算框架,而Stinger是下一代的Hive。2013年底,由Facebook开源的Presto分布式SQL查询引擎可对250PB以上的数据进行交互式分析,比Hive的性能高出10倍。类似的Shark是Spark上的SQL执行引擎,得益于Shark的列存储和Spark的内存处理等特性,Shark号称可以比Hive的性能提高100倍。
二、大数据产业的概念
大数据产业是指一切与大数据的产生与集聚、组织与管理、分析与发现、应用与服务相关的所有活动的集合。主要包括三个方面:(1)用以搭建大数据平台、实现大数据组织与管理、分析与发现的相关IT基础设施与软件的销售和租赁活动。(2)大数据平台的运维与管理服务,系统集成、数据安全、云存储等解决方案与相关咨询服务。(3)与大数据应用相关的数据出售与租赁服务、分析与预测服务、决策支持服务、数据共享平台、数据分析平台等。大数据产业链按照数据价值实现流程包括数据生产与集聚层、数据组织与管理层、数据分析与发现层、数据应用与服务层。
电话:13560189272
QQ:1536490903
邮箱:1536490903@qq.com
地址:广州市天河区黄埔大道西201号金泽大厦808室
长按保存
首页
案例
电话联系
联系我们