Flume(1)-概述与构成架构_玖富娱乐主管发布


玖富娱乐是一家为代理招商,直属主管信息发布为主的资讯网站,同时也兼顾玖富娱乐代理注册登录地址。

一. 界说

Flume是Cloudera供应的一个高可用的,高牢靠的,分布式的海量日记收罗、聚合和传输的体系。Flume基于流式架构,天真简朴。

二. 长处

1. 能够和恣意集中式存储历程集成。

2. 输入的的数据速度大于写入目标存储的速度,flume会举行缓冲,减小hdfs的压力。

3. flume中的事宜基于channel,运用了两个事宜模子(sender receiver),确保音讯被牢靠发送。

Flume运用两个自力的事宜离别卖力从soucrce到channel,和从channel到sink的事宜通报。一旦事宜中一切的数据悉数胜利提交到channel,那末source才以为该数据读取完成。同理,只要胜利被sink写出去的数据,才会从channel中移除。

三. 组成架构

1. Agent

Agent是一个JVM历程,它以事宜的情势将数据从泉源送至目标,是Flume数据传输的基础单位。

Agent主要有3个局部组成,Source、Channel、Sink。

-玖富娱乐是一家为代理招商,直属主管信息发布为主的资讯网站,同时也兼顾玖富娱乐代理注册登录地址。-

2. Source

Source是卖力吸收数据到Flume Agent的组件。Source组件能够处置惩罚种种类型、种种花样的日记数据,包孕avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

3. Channel

Channel是位于Source和Sink之间的缓冲区。因而,Channel许可Source和Sink运作在分歧的速度上。Channel是线程平安的,能够同时处置惩罚几个Source的写入操纵和几个Sink的读取操纵。

Flume自带两种Channel:Memory Channel和File Channel。

Memory Channel是内存中的行列。Memory Channel在不须要体贴数据丧失的情形下实用。若是须要体贴数据丧失,那末Memory Channel就不应当运用,由于顺序殒命、机械宕机或许重启都邑致使数据丧失。

File Channel将一切事宜写到磁盘。因而在顺序封闭或机械宕机的情况下不会丧失数据。

4. Sink

Sink不断地轮询Channel中的事宜且批量地移除它们,并将这些事宜批量写入到存储或索引体系、或许被发送到另一个Flume Agent。

Sink是完整事宜性的。在从Channel批量删除数据之前,每一个Sink用Channel启动一个事宜。批量事宜一旦胜利写出到存储体系或下一个Flume Agent,Sink就应用Channel提交事宜。事宜一旦被提交,该Channel从本身的内部缓冲区删除事宜。

Sink组件目标地包孕hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自界说。

5. Event

传输单位,Flume数据传输的基础单位,以事宜的情势将数据从泉源送至目标地。  Event由可选的header和载有数据的一个byte array 组成。Header是包容了key-value字符串对的HashMap。

 

-玖富娱乐是一家为代理招商,直属主管信息发布为主的资讯网站,同时也兼顾玖富娱乐代理注册登录地址。