主要内容:

  • 介绍几种架构选型

1 数据采集

采集框架名称 主要功能
Sqoop 大数据平台和关系型数据库的导入导出
datax 大数据平台和关系型数据库的导入导出
flume 擅长日志数据的采集和解析
logstash 擅长日志数据的采集和解析
maxwell 常用作实时解析mysql的binlog数据
canal 常用作实时解析mysql的binlog数据
waterDrop 数据导入导出工具

2 消息中间件

开源MQ 概述
1.RabbitMQ LShift 用Erlang实现,支持多协议,broker架构,重量级
2.ZeroMQ AMQP最初设计者iMatix公司实现,轻量消息内核,无broker设计。C++实现
3.Jafka/Kafka LinkedIn用Scala语言实现,支持hadoop数据并行加载
4.ActiveMQ Apach的一种JMS具体实现,支持代理和p2p部署。支持多协议。Java实现
5.Redis Key-value NoSQL数据库,有MQ的功能
6.MemcacheQ 国人利用memcache缓冲队列协议开发的消息队列,C/C++实现

3 实时流式处理

框架名称 框架介绍
Storm Twitter公司开源提供,早期的流式计算框架,基本已经退出大数据的舞台
SparkStreaming 当下最火热的流式处理技术之一
Flink 流式计算 当下最火热的流式处理技术之一
Blink流式计算 阿里二次开发的Flink框架

4 数据持久化

框架名称 主要用途
HDFS 分布式文件存储系统
Hbase Key,value对的nosql数据库
Kudu Cloudera公司开源提供的类似于Hbase的数据存储

5 离线计算框架

框架名称 基本介绍
MapReduce 最早期的分布式文件计算系统
hive 基于MR的数据仓库工具
impala 号称当前大数据领域最快的sql on hadoop框架,内存消耗特别大
SparkSQL 基于spark,一站式解决批流处理问题
FlinkSQL 基于flink,一站式解决批流处理问题
druid 针对时间序列数据提供低延迟的数据写入以及快速交互式查询的分布式OLAP数据库
kylin 基于Hbase实现的预计算
presto 分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集
clickHouse 俄罗斯开源提供的一个OLAP分析框架