导航：首页 > 互联网科技 >

Spark2.x入门中SparkStreaming的工作原理是什么

发表于：2025-12-01 作者：千家信息网编辑

千家信息网最后更新 2025年12月01日，本篇文章给大家分享的是有关Spark2.x入门中SparkStreaming的工作原理是什么，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧

千家信息网最后更新 2025年12月01日Spark2.x入门中SparkStreaming的工作原理是什么

本篇文章给大家分享的是有关Spark2.x入门中SparkStreaming的工作原理是什么，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

官网翻译大体意思如下：

SparkStreaming是核心SparkApi的扩展，支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取，如Kafka、Flume、Kinesis或TCP sockets，可以使用复杂的算法处理数据，这些算法用高级函数表示，如map、reduce、join和window。最后，处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上，您可以将Spark的机器学习和图形处理算法应用于数据流。

内部工作原理：SparkStreaming接受实时输入数据流，并将数据分成批次，然后由Spark engine处理，以批量生成最终的结果流。

DStream是SparkStreaming流提供的基本抽象。它表示连续的数据流，可以是从源接收到的输入数据流，也可以是通过转换输入流生成的经过处理的数据流。在内部，DStream由一系列连续的RDD表示，RDD是Spark对不可变的分布式数据集的抽象。DStream中的每个RDD包含来自某个间隔的数据，如下图所示。

应用于DStream上的任何操作都转换为底层RDD上的操作。例如，在前面将一个行流转换为单词的示例中，flatMap操作应用于行DStream中的每个RDD，以生成单词DStream的RDD。如下图所示。

这些底层的RDD转换是由Spark引擎计算的。DStream操作隐藏了这些细节中的大部分，并为开发人员提供了更高级的API。这些操作将在后面的小节中详细讨论。

SparkStreaming 、Flink 、Storm 三种流式处理框架对比分析

	SparkStreaming	Flink	Storm
吞吐量	高吞吐	高吞吐	低吞吐
实时性	秒级延迟	低延迟，毫秒级（百毫秒）	低延迟，毫秒级(几十毫秒)
乱序、延迟处理	无	flink通过warterMarker水印支持乱序和延迟处理，这个spark没有	无
保证次数	exactly-once	exactly-once	at-least-once
动态调整并行度	不支持	支持	支持
容错	基于RDD的checkpoint	基于分布式Snapshot的checkpoint	基于Record记录的ack机制