hadoop项目架构


1:日志采集;

2:传输日志;

3:将日志写入HDFS;

4:从HDFS中将日志装载入数据仓库中;

5:对装载的数据进行分析;

6:调用Hadoop集群的M/R执行并行计算,并返回结果;

7:将结果中有价值的数据写入HBASE数据库;

8:报表系统&应用程序端通过HBASE查询数据并展现;

备注:1:HBASE主要是和前端用户打交道的,因为HBASE的速度快;2:原始数据如果要被变化,可以使用Hive,Hive当不能完成时,可以通过扩展MapReduce来进行;3:最原始的数据存放在HDFS中;4:最原始的数据来自于业务系统;5:业务数据中的数据通过FLUME来进入HDFS中;


Zookeeper作用:

   1:与FLUME服务器的交互:写入FLUME配置与读取HDFS配置信息,FLUME根据HDFS的配置信息将数据写入到HDFS中;

   2:与Hadoop集群的交互:Hadoop集群将HDFS的配置信息写入到Zookeeper;

   3:与Hive服务器的交互:Hive服务器读取HDFS的配置,读取HBase的配置;

   4:与HBase K/V分布式数据库的交互:把HBASE配置信息写入Zookeeper;


Zookeeper充当一个配置管理的角色; FLUME一般部署在业务服务器上;



                                                                                                       图:数据的流动与控制关系






相关推荐
©️2020 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页