千家信息网

使用Apache Flume抓取数据(1)

发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,使用Apache Flume抓取数据,怎么来抓取呢?不过,在了解这个问题之前,我们必须明确ApacheFlume是什么?一、什么是Apache FlumeApache Flume是用于数据采集的高性能
千家信息网最后更新 2025年12月01日使用Apache Flume抓取数据(1)


使用Apache Flume抓取数据,怎么来抓取呢?不过,在了解这个问题之前,我们必须明确ApacheFlume是什么?

一、什么是Apache Flume

Apache Flume是用于数据采集的高性能系统 ,名字来源于原始的近乎实时的日志数据采集工具,现在广泛用于任何流事件数据的采集,支持从很多数据源聚合数据到HDFS。

最初由Cloudera开发 ,在2011年贡献给了Apache基金会 ,在2012年变成了Apache的顶级项目,Flume OG升级换代成了Flume NG。

Flume具有横向扩展、延展性、可靠性的优势

二、Flume 体系结构

Source:接受外部系统生成event

Sink:发送event到指定的目的地

Channel:从Source缓存event,直到Sink把event取走

Agent:一个独立的Flume进程,包含了source,channel和sink组件

三、Flume设计目标:可靠性

Channels提供了Flume可靠性保障 ,那么它通过什么样的方式来保障呢?默认的模式就是Memory Channel,Memory Channel就是内存,所有的数据存放在内存当中。那么,这里就会存在一个问题?如果Channel的节点出现断电,数据就会丢失。为解决这一问题,这里有另外一种模式,就是基于磁盘的Channel,基于磁盘的队列确保出现断电时数据不丢失 。

另外,Agent和Channel之间的数据传输是事务性的 ,传输给下游agent失败的数据会回滚和重试 。相同的任务可以配置多个Agent,

比如,两个agent完成一个数据采集作业,如果一个agent失败,则上游的agent会失败切换到另一个。

四、Flume设计目标:扩展性

当我们采集的数据特别多的时候,可以通过添加更多的系统资源从而线性地增加系统性能。而且Flume可横向的扩展规模 ,随着复杂增加,可以添加更多的机器到配置当中 。

五、Flume设计目标:延展性

延展性就是能够添加新的功能到系统中。Flume通过添加Sources和Sinks到现有的存储层或数据平台,常见的Sources包括files、syslog和任何linux进程的标准输出的数据;常用Sinks包括本地文件系统或HDFS,开发员可以写自己的Sources或Sinks。

六、常见的Flume数据源

七、大规模部署实例

Flume使用agents收集数据 ,Agents可以从很多源接收数据,包括其他agents。大规模的部署使用多层来实现扩展性和可靠,Flume支持传输中数据的检查和修改。

以上就是关于Apache Flume的部分详情介绍,后续将会继续分享。大数据将会是未来的风口,要想很好的站在风口上,就要持续不断地学习和努力,这里推荐大家关注一个微信公众号"大数据cn ",里面有很多关于大数据知识的介绍,对于想要了解和学习大数据的人是一个很好的平台。


数据 系统 就是 可靠性 延展性 数据采集 目标 问题 传输 设计 内存 大规模 常见 平台 扩展性 数据源 更多 模式 横向 磁盘 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 国内服务器研发 幼儿园网络安全材料包括 软件开发实施费用 华泰证券软件开发上班地点 常见的数据库应用系统 互联网金融与科技金融创新模式 软件开发专业毕业生简历模板 局域网数据库怎么打开 macbook适合软件开发 服务器硬盘插上电脑没反应 运用中国科学引文数据库 模拟器玩剑与家园怎么换服务器 精睿网络安全工程师 网络安全专业的985大学 贵州物联网子母钟服务器 服务器管理端界面 西安本地的网络安全厂家 数据库课学信息安全要学吗 浙江特色软件开发行业标准 服务器调试机器 新媒体行业网络安全知识竞赛 浙江图书馆万方数据库 科技互联网行业人士 互联网银行与金融科技的关系 exsi服务器 微信点餐机软件开发 四川pdu服务器专用电源生产厂 西安本地的网络安全厂家 网络安全工程师需要努力的方向 32gb服务器内存价格
0