分享

大数据的梦想与现实(上):大数据技术篇

本帖最后由 poppowerlb2 于 2015-7-27 21:51 编辑
问题导读:
1、传统BI的数据处理方式是怎样的?
2、大数据解决方案有哪几种?
3、大数据的市场行情如何?





云计算是大数据的一种应用形式
a1.jpg

代表性运营企业的数据结构
120.jpg
219.jpg
316.jpg
从数据结构的复杂性来看, 电信运营商、 电商以及互联网企业的数据分布上图所示。

与互联网企业以及电商的数据分布不同 , 电信运营商在目前的运营模式和IT支撑模式下, 仍会以结构化数据为主。 随着流量经营以及与 OTT业务的交叉经营等新型商业模式的成熟和发展, 逐步会增加非结构化数据以及混合结构数据的比重。

传统BI的数据处理方式越来越无法满足海量数据分析场景

416.jpg
58.jpg
传统BI以集中数据为基础, 进而通过集中的分析能力开展各种分析应用 , 代表企业有银行以及其他BI系统, 这种方式需要数据比较全、 产品规范并且对数据集中程度要求比较高, 可以开展全面的精确性的分析应用;

缺点是周期比较长, 数据质量要求比较高。 新兴的互联网企业是以应用为主, 基于单一数据源展开分析, 同时采用数据源与分析能力迭代式的集中 , 以平台促进应用和数据的建设, 这种模式建设速度快, 对环境要求较为宽松, 适合于专门化、 趋势性的分析服务。

企业传统IT架构体系

66.jpg
企业通过CRM、 ERP和财务系统等应用程序 , 创建基于稳定数据模型的结构化数据。 数据集成工具用于从企业应用程序和事务型数据库中 ETL (Extract- Transform – Load)提取、 转换和加载过程后 , 数据最终被模式化到整齐的结构化数据库中。

从时间或成本效益上看,传统架构必须将数据组织成关系表(整齐的行和列数据),传统的企业级数据仓库才可以处理。 由于需要的时间和人力成本,对于海量的非结构化数据应用,传统的数据管理工具都无法实现大数据的处理和分析工作。

大数据解决方案

76.jpg
Hadoop, NoSQL 和大规模并行分析数据库不是相互排斥的,这三种方法是互补的,彼此可以而且应该共存于大数据解决方案中。

Hadoop 架构-海量静态数据处理的最佳工具

85.jpg
优点:高效处理和分析大量的非结构化和半结构化数据

缺点:技术框架不成熟,实时处理数据能力差

应用场景:历史数据分析

客户从日志文件、 社交媒体供稿和内部数据存储等来源获得非结构化和半结构化数据。 它将数据打碎成“部分” , 这些“部分”被载入到商用硬件的多个节点组成的文件系统 。Hadoop的默认文件存储系统是Hadoop分布式文件系统。 文件系统( 如HDFS)善于存储大量非结构化和半结构化数据, 因为它们不需要将数据组织成关系型的行和列 。 一旦数据被加载到集群中 , 它就准备好通过MapReduce 框架进行分析。

NoSQL-非结构化数据库应对高并发应用场景

NoSQL(Not Any SQL) , 泛指非关系型的数据库。 传统的关系数据库在应付web2. 0网站,特别是超大规模和高并发的SNS类型的web2. 0纯动态网站已经显得力不从心。 NoSQL与传统数据库最大的区别是在于数据存储方式不太一样, 在大量数据存取上具备关系型数据库无法比拟的性能优势。

大数据应用场景下所需要的可扩展性和高并发对数据库提出了新的要求

96.jpg
106.jpg

大规模并行计算-数据库一体机实时动态处理解决方案
1110.jpg
SAP HANA完全在内存中运行数据, 而其他则采用混合的方式, 即用较便宜但低性能的磁盘内存处理“冷” 数据, 用动态 RAM或闪存处理“热” 数据。
126.jpg
Oracle Exadata数据库一体机是一个把硬件和软件根据合理的配臵整合在一起的 Oracle数据库 。 Exadata 是Oracle和Sun Microsystems联合推出的产品。

大数据市场规模快速扩大,现阶段硬件和服务占比较高

136.jpg
2013年大数据行业整体市场规模为 186 亿美元, 硬件和服务占比偏高的原因是目前软件大部分都是以开源的形式存在, 在整体生态圈未建立之前, 软件市场处于多种技术体系竞争俄状况。

大数据和云计算拉动X86服务器市场

互联网公司对硬件的需求带动直销市场的发展。 2013年全球服务器市场收入同比减少 4. 4%, ODM 直销( ODM Direct) 服务器的需求同比增长57%,, 占整个市场的 5. 7%。ODM 直销服务器80% 的收入来自美国 , 包 括 Google 、 Amazon 、Facebook 和Rackspace。

国内 OEM厂商的机会, 国内 BAT 更倾向于 OEM 厂商。 在IBM、 Dell 等国际大厂承受不住价格压力之后,浪潮、 曙光、 华为等国内厂商纷纷抓住机会上位。 2013 年从IDC 中国 x86 市场报告来看, 在整个市场出货量同比增长仅为 12% 的情况下,以互联网企业为主体的媒体行业出货量增长达到 48%。

互联网,政府,金融和电信仍然是需求最旺盛的行业

146.jpg
156.jpg
国内厂商愿意忍受较低的利润率, 在竞争十分激烈的互联网市场中占据优势, 快速提升出货量; 国产高端高配服务器在电信、 金融、 政府行业的渗透率在今年有所提升, 促进营业额的快速攀升。

中国服务器保持稳定增长,国产品牌份额持续扩张

164.jpg
IDC中国企业级系统研究经理彭振飞说: “2013年前期政府及相关行业的采购需求延迟, 但是第四季度其需求有所回升, 另外由于十二五规划中的多个重大项目或将在2014年落地, 相信政府及相关行业市场将会保持中速增长。 ”

数据库一体机和大数据一体机

174.jpg

Pivotal:基于Greenplum的大数据解决方案提供商

EMC公司作为全球领先企业存储服务提供商 , 率先布局大数据和云计 算 , 在 3 月 中 旬 举 办 EMC 和VMWare年度战略会议上宣布成立的新公司 -Pivotal 。 Pivotal 的定位是一家下一代云计算和大数据应 用 相 结 合 的 公 司 , 2012 年 ,Pivotal 目标市场规模分别为 60亿美元, 而在 2017 年目标市场规模有望增加至200亿美元。

184.jpg

Oracle和SAP凭借基础应用工具的优势售卖数据库一体机

2013财年 Oracle数据库一体机贡献10亿美元收入, 占总收入380亿美元的比例为 2. 6%。

2013财年 SAP HANA开始和华为合作推出数据库一体机, 在欧洲获得突破, SAP HANA销售收入从2012财年5. 05亿欧元提升至2013财年6. 42亿欧元, 增长幅度达到 27%, 远高于公司 8%的收入增速。

IT架构重构削弱传统OEM厂商地位,短期内渠道商获得增量性市场

分销商和运维商切入系统集成领域, 传统OEM商的地位被弱化。 如美国 Synnex 者, 代理计算机部件。 在2010 年前 , Synnex 先后成为 Google 、 Facebook 、Rackspace 的供应商, 更在加入Open Compute 项目( OCP) 后, 成立了专门的定制服务器业务分部 HyveSolutions 。 2013 年9 月 , Synnex 还以 5 亿美元收购了 IBM全球客户服务处理外包( Business ProcessOutsourcing) 。 目前的 6 家Open Compute解决方案提供商中 , 渠道商出身的除了 Hyve Solutions , 还有Avnet。 其他四家分别是AMAX、 Penguin Computing、Racklive, 以及知名 ODM 广达。

互联网企业主导的硬件重构将成为最终解决方案。 集成系统只能作为短期内解决方案, 和互联网公司联合开发开源系统的厂商有望成为 IT架构变革的受益者。

大数据IT工具市场规模并不大,主要集中在新兴成长公司

195.jpg
大数据的应用目前主要是互联网公司使用较多 , 互联网公司往往采用自己研发的技术体系 , 对第三方工具依赖不高 , 基础工具 类 公 司 如Cloudera(Hadoop) 和 MongoDB(NoSQL) 在美国发展较为顺利 。

2013年美国大数据服务主要集中在传统IT龙头

206.jpg
2110.jpg

工具类公司技术是最重要的核心竞争力

MongoDB和Cloudera, 分别是NoSQL市场和Hadoop市场的重量级大公司 。 近日 , 两家公司提出要共享营销和销售渠道, 声称目的只有一个:为客户提供大数据整体解决方案, 消除客户的疑虑。

Splunk:机器数据的挖掘者

Splunk 是机器数据的引擎。 使用 Splunk 可收集、 索引和利用所有应用程序、 服务器和设备( 物理、 虚拟和云中 ) 生成的快速移动型计算机数据 。 从一个位臵搜索并分析所有实时和历史数据。

225.jpg
225 (1).jpg
235.jpg
235 (1).jpg

Splunk由于其软件的通用性,在各行业客户拓展速度非常快

Splunk公司客户数量已经从2008年450个增长到目前7000个( 90个国家) 。 Splunk在2013年才宣布进军中国市场, 先后在北京、 上海设立了办事机构, 开始正式运作国内业务。 但早在2008年, Splunk就通过代理商在国内提供服务, 包括精诚集团, 上海天旦网络科技发展有限公司和北京华夏威科软件技术有限公司 。 客户主要集中在政府、电信、 金融和教育领域。

245.jpg
245 (1).jpg

Tableau:数据可视化工具的领航者
255.jpg
264.jpg
274.jpg
Tableau是一家专门为企业提供商务智能BI解决方案的大数据和云计算公司 。 Tableau公司将数据运算与美观的图表完美地嫁接在一起。它的程序很容易上手, Tableau的主要受众人群是非技术人员 , 使得他们可以轻易的对已有的数据进行可视化、 可交互的即时展示与分析。

BI市场格局,数据可视化近两年发展迅速
284.jpg



接下篇:大数据的梦想与现实(下):大数据的应用篇

已有(1)人评论

跳转到指定楼层
xuliang123789 发表于 2016-12-2 23:09:03
谢谢楼主,正需要,学习一下,赞~~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条