日志

大数据分析平台架构(Big Data Analytics Platform)

热度 1已有 3051 次阅读2015-4-2 23:05

一、数据分析平台层次解析

大数据分析处理架构图

数据源： 除该种方法之外，还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构，而特别要说的是流数据，它的核心就是数据的连续性和快速分析性；

计算层： 内存计算中的Spark是UC Berkeley的最新作品，思路是利用集群中的所有内存将要处理的数据加载其中，省掉很多I/O开销和硬盘拖累，从而加快计算。而Impala思想来源于Google Dremel，充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度，这也就是我上面说到的近似实时查询；底层的文件系统当然是HDFS独大，也就是Hadoop的底层存储，现在大数据的技术除了微软系的意外，基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版，和在一起就是Hadoop最新版本。基于之上的应用有Hive，Pig Latin，这两个是利用了SQL的思想来查询Hadoop上的数据。

数据层：此层一般通过计算层从数据源获取数据，并在必要时，将它转换为适合数据分析方式的格式。例如，可能需要转换一幅图，才能将它存储在 Hadoop Distributed File System (HDFS) 存储或关系数据库管理系统 (RDBMS) 仓库中，以供进一步处理。合规性制度和治理策略要求为不同的数据类型提供合适的存储。

分析层：分析层读取数据改动和存储层整理 (digest) 的数据。在某些情况下，分析层直接从数据层访问数据。设计分析层需要认真地进行事先筹划和规划。必须制定如何管理以下任务的决策：

生成想要的分析

从数据中获取洞察

找到所需的实体

定位可提供这些实体的数据的数据源

理解执行分析需要哪些算法和工具。