请
登录
后使用快捷导航
没有帐号?
立即注册
客户端
扫码下载小米社区APP
论坛
BBS
版块
导读
Guide
下载
登录
立即注册
mwt-design
»
论坛
›
点滴
›
数据与机器学习
›
大数据平台架构
大数据平台架构
所在版块: 数据与机器学习 2018-01-23 11:41
[复制链接]
查看:
3040
|
回复:
0
电梯直达
楼主
发表于 2018-1-23 11:41:59
|
只看该作者
|
正序浏览
|
阅读模式
下图是2019年11月结合DD的数据平台思考整理大数据平台架构图。
开源大数据组件在DD的使用:
Flume:Hera平台
Flink:
Woater平台
离线计算框架整合为
数据梦工厂
数易:自研的可视化报表引擎
提数工具:HSQL模板+定时调度
数据地图:数据治理部自研的Hive数仓表检索系统
【大数据离线数据分析】
Linux基础
大数据java加强
Hadoop:
Hadoop是知名的大数据处理工具,包括分布式数据存储系统HDFS,分布式数据计算框架MapReduce和资源管理系统Yarn。HDFS全称为Hadoop分布式文件系统,用于分布式存储海量数据,具有高容错,高吞吐,高可用的特点。MapReduce是Hadoop提供的一种计算框架,用于大规模数据集的并行计算,包含Map和Reduce两个过程。Yarn是Hadoop2.0对MapReduce框架重构后的一种资源管理器,为Hadoop的上层应用提供统一的资源管理和调度。它的引入为集群在利用率,资源统一管理和数据共享等方面带来了巨大好处。
Flume
:Flume是大数据生态的日志收集,传输系统。
Hive
:Hive是基于Hadoop的数据仓库系统。它通过将结构化的数据文件映射为Hive表,并提供类SQL的语言转成对应的MapRecude任务来处理数据。
HBase
:HBase是基于Hadoop的分布式非关系型数据库。
Zookeeper
:分布式系统的协调和状态监控工具。
Sqoop
:用于在Hive与MySQL之间的数据传输工具。
【大数据实时数据分析】
Storm
:Storm是一个分布式、可容错的实时计算系统。Storm为分布式实时计算提供了一组通用原语,可被用于流处理之中,实时处理消息并更新数据库。Storm也可被用于连续计算,对数据流做连续查询,在计算时讲结果以流的形式输出给用户。Storm可被用于分布式RPC,以并行的方式运行昂贵的计算。
Kafka
:Kafka是一种高吞吐量的分布式发布订阅消息系统。可以处理消费者规模的网站中的所有动作流数据。是一种分布式消息队列,提供横向扩展能力。通过磁盘存储数据,实现了消息天然的持久化存储。可以实现数据的分区,为并发处理数据提供可能。以分区为单位实现负载均衡和失败恢复,实现了高可用。
CDH
:CDH是Cloudera发行的基于Apache Hadoop的一个Hadoop版,它提供了一个可伸缩,稳定,综合的企业级数据管理平台。用于管理快速增长的数据,使用户可以快速部署和管理Hadoop及相关大数据处理框架,操作、分析企业级数据,并保证数据的安全性。对包括Apache Hadoop和其他十多项重要开源技术进行了整合,满足企业级应用需求。
【大数据内存计算框架】
SCALA
:Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
SPARK
:
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
分享到:
QQ好友和群
QQ空间
腾讯微博
腾讯朋友
收藏
0
回复
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
发新帖
扫码关注微信公众号
快速回复
返回列表