导航：首页 > 互联网科技 >

Flume+Kafka+Zookeeper搭建大数据日志采集框架

发表于：2025-12-02 作者：千家信息网编辑

千家信息网最后更新 2025年12月02日，1. JDK的安装参考jdk的安装，此处略。2. 安装Zookeeper参考我的Zookeeper安装教程中的"完全分布式"部分。3. 安装Kafka参考我的Kafka安装教程中的"完全分布式搭建"部

千家信息网最后更新 2025年12月02日Flume+Kafka+Zookeeper搭建大数据日志采集框架

1. JDK的安装

参考jdk的安装，此处略。

2. 安装Zookeeper

参考我的Zookeeper安装教程中的"完全分布式"部分。

3. 安装Kafka

参考我的Kafka安装教程中的"完全分布式搭建"部分。

4. 安装Flume

参考我的Flume安装教程。

5. 配置Flume

5.1. 配置kafka-s.cfg

$ cd /software/flume/conf/ #切换到kafka的配置文件目录

$ cp flume-conf.properties.template kafka-s.cfg #将flume的配置文件模板复制为kafka-s.cfg

kafka-s.cfg的详细内容如下：

#配置flume agent的source、channel、sink

a1.sources = r1

a1.channels = c1

a1.sinks=k1

#配置source

a1.sources.r1.type = exec

a1.sources.r1.command=tail -F/tmp/logs/kafka.log

# 配置channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

#配置sink

a1.sinks.k1.channel = c1

a1.sinks.k1.type =org.apache.flume.sink.kafka.KafkaSink

#设置Kafka的Topic

a1.sinks.k1.kafka.topic = mytest

#设置Kafka的broker地址和端口号

a1.sinks.k1.kafka.bootstrap.servers = s201:9092,s202:9092,s203:9092

#配置批量提交的数量

a1.sinks.k1.kafka.flumeBatchSize = 20

a1.sinks.k1.kafka.producer.acks = 1

a1.sinks.k1.kafka.producer.linger.ms = 1

a1.sinks.ki.kafka.producer.compression.type= snappy

# 绑定source和sink 到channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel=c1

关于上面配置文件中需要注意的3点：

a、a1.sources.r1.command=tail-F /tmp/logs/kafka.log

b、a1.sinks.k1.kafka.bootstrap.servers= s201:9092,s202:9092,s203:9092

c、a1.sinks.k1.topic= mytest

由配置文件我们可以了解到：

1）、我们需要在/tmp/logs下建一个kafka.log的文件，且向文件中输出内容（下面会说到）；

2）、flume连接到kafka的地址是 s201:9092,s202:9092,s203:9092，注意不要配置错误了；

3）、flume会将采集后的内容输出到Kafkatopic 为mytest上，所以我们启动zk，kafka后需要打开一个终端消费topic mytest的内容，这样就可以看到flume与kafka之间玩起来了。

5.2. 创建/tmp/logs/kafka.log文件目录及文件

在/tmp/logs下建立空文件kafka.log；如果/tmp目录下没有logs目录，则需要先创建logs目录。

5.3. 创建生成日志数据shell脚本

在hadoop用户目录下创建kafkaoutput.sh脚本，并赋予执行权限，用来向/tmp/logs/kafka.log输出内容。

kafkaoutput.sh脚本的具体内容如下：

for((i=0;i<=1000;i++));

do echo"kafka_test-"+$i>>/tmp/logs/kafka.log;

done

5.4. 启动Zookeeper

到zk安装的服务器上启动zk服务，命令如下：

$ zkServer.sh start

5.5. 启动Kafka

到部署kafka每台服务器上面启动kafka集群

$ kafka-server-start.sh/software/kafka/config/server.properties &

5.6. 创建Kafka Topic

$ kafka-topics.sh --create --zookeeper s201:2181--replication-factor 3 --partitions 3 --topic mytest

5.7. 启动消费Topic

$ kafka-console-consumer.sh--bootstrap-server s201:9092,s202:9092,s203:9092 --zookeepers201:2181,s202:2181,s203:2181 --topic mytest --from-beginning

5.8. 启动Flume

$ flume-ng agent --conf/software/flume/conf/ --conf-file kafka-s.cfg --name a1-Dflume.root.logger=INFO,console

5.9. 执行kafkaoutput.sh脚本生成日志数据

$ ./kafkaoutput.sh

查看日志文件内容如下：

在kafka中查看的消费信息：

很赞哦！

配置文件内容目录脚本参考日志教程服务消费输出数据分布式地址服务器部分生成之间信息口号数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全那种服务器最不卡智慧管理体系属于软件开发吗戴尔r730二手服务器导入数据库的文字怎么分列金山区标准软件开发业务流程呈现数据库数据到页面工业互联网网络安全市场如何保证数据库数据的唯一性中国电子软件开发初中学软件开发好吗数据库附加到服务器失败连州软件开发浙江定制软件开发哪家好科技安全与网络安全的区别软件开发企业的利润率海南综合软件开发厂家报价数据库串行调度策略怀柔区数据网络技术咨询如何实现数据库的共享对于软件开发的风险管理租服务器什么意思设计一个数据库需要什么富土康资讯及网络安全试卷 c 软件开发师招聘忻州网络技术市场报价服务器初学 lol观战服务器连接失败互联网科技发展的英语作文软件开发需要主流都有什么网络安全宣传版报

千家信息网