大数据平台架构

只看该作者 · 发表于 2018-1-23 11:41:59

下图是2019年11月结合DD的数据平台思考整理大数据平台架构图。

开源大数据组件在DD的使用：

【大数据离线数据分析】

Linux基础
大数据java加强
Hadoop：Hadoop是知名的大数据处理工具，包括分布式数据存储系统HDFS，分布式数据计算框架MapReduce和资源管理系统Yarn。HDFS全称为Hadoop分布式文件系统，用于分布式存储海量数据，具有高容错，高吞吐，高可用的特点。MapReduce是Hadoop提供的一种计算框架，用于大规模数据集的并行计算，包含Map和Reduce两个过程。Yarn是Hadoop2.0对MapReduce框架重构后的一种资源管理器，为Hadoop的上层应用提供统一的资源管理和调度。它的引入为集群在利用率，资源统一管理和数据共享等方面带来了巨大好处。
Flume：Flume是大数据生态的日志收集，传输系统。
Hive：Hive是基于Hadoop的数据仓库系统。它通过将结构化的数据文件映射为Hive表，并提供类SQL的语言转成对应的MapRecude任务来处理数据。
HBase：HBase是基于Hadoop的分布式非关系型数据库。
Zookeeper：分布式系统的协调和状态监控工具。
Sqoop：用于在Hive与MySQL之间的数据传输工具。

【大数据实时数据分析】

Storm：Storm是一个分布式、可容错的实时计算系统。Storm为分布式实时计算提供了一组通用原语，可被用于流处理之中，实时处理消息并更新数据库。Storm也可被用于连续计算，对数据流做连续查询，在计算时讲结果以流的形式输出给用户。Storm可被用于分布式RPC，以并行的方式运行昂贵的计算。
Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统。可以处理消费者规模的网站中的所有动作流数据。是一种分布式消息队列，提供横向扩展能力。通过磁盘存储数据，实现了消息天然的持久化存储。可以实现数据的分区，为并发处理数据提供可能。以分区为单位实现负载均衡和失败恢复，实现了高可用。
CDH：CDH是Cloudera发行的基于Apache Hadoop的一个Hadoop版，它提供了一个可伸缩，稳定，综合的企业级数据管理平台。用于管理快速增长的数据，使用户可以快速部署和管理Hadoop及相关大数据处理框架，操作、分析企业级数据，并保证数据的安全性。对包括Apache Hadoop和其他十多项重要开源技术进行了整合，满足企业级应用需求。

【大数据内存计算框架】

SCALA：Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
SPARK：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。