客户端

大数据平台架构

所在版块: 数据与机器学习 2018-01-23 11:41 [复制链接] 查看: 3040|回复: 0
下图是2019年11月结合DD的数据平台思考整理大数据平台架构图。



开源大数据组件在DD的使用:
  • Flume:Hera平台
  • Flink:Woater平台
  • 离线计算框架整合为数据梦工厂
  • 数易:自研的可视化报表引擎
  • 提数工具:HSQL模板+定时调度
  • 数据地图:数据治理部自研的Hive数仓表检索系统



【大数据离线数据分析】
  • Linux基础
  • 大数据java加强
  • Hadoop:Hadoop是知名的大数据处理工具,包括分布式数据存储系统HDFS,分布式数据计算框架MapReduce和资源管理系统Yarn。HDFS全称为Hadoop分布式文件系统,用于分布式存储海量数据,具有高容错,高吞吐,高可用的特点。MapReduce是Hadoop提供的一种计算框架,用于大规模数据集的并行计算,包含Map和Reduce两个过程。Yarn是Hadoop2.0对MapReduce框架重构后的一种资源管理器,为Hadoop的上层应用提供统一的资源管理和调度。它的引入为集群在利用率,资源统一管理和数据共享等方面带来了巨大好处。
  • Flume:Flume是大数据生态的日志收集,传输系统。
  • Hive:Hive是基于Hadoop的数据仓库系统。它通过将结构化的数据文件映射为Hive表,并提供类SQL的语言转成对应的MapRecude任务来处理数据。
  • HBase:HBase是基于Hadoop的分布式非关系型数据库。
  • Zookeeper:分布式系统的协调和状态监控工具。
  • Sqoop:用于在Hive与MySQL之间的数据传输工具。


【大数据实时数据分析】
  • Storm:Storm是一个分布式、可容错的实时计算系统。Storm为分布式实时计算提供了一组通用原语,可被用于流处理之中,实时处理消息并更新数据库。Storm也可被用于连续计算,对数据流做连续查询,在计算时讲结果以流的形式输出给用户。Storm可被用于分布式RPC,以并行的方式运行昂贵的计算。
  • Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统。可以处理消费者规模的网站中的所有动作流数据。是一种分布式消息队列,提供横向扩展能力。通过磁盘存储数据,实现了消息天然的持久化存储。可以实现数据的分区,为并发处理数据提供可能。以分区为单位实现负载均衡和失败恢复,实现了高可用。
  • CDH:CDH是Cloudera发行的基于Apache Hadoop的一个Hadoop版,它提供了一个可伸缩,稳定,综合的企业级数据管理平台。用于管理快速增长的数据,使用户可以快速部署和管理Hadoop及相关大数据处理框架,操作、分析企业级数据,并保证数据的安全性。对包括Apache Hadoop和其他十多项重要开源技术进行了整合,满足企业级应用需求。


【大数据内存计算框架】
  • SCALA:Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
  • SPARKApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码关注微信公众号

QQ|Archiver|手机版|小黑屋|mwt-design ( 沪ICP备12041170号-1

GMT+8, 2024-11-25 03:26 , Processed in 0.071264 second(s), 38 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回列表