千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 互联网科技 >

Spark 累加器实验

发表于：2025-12-02 作者：千家信息网编辑

千家信息网最后更新 2025年12月02日，以下代码用 Pyspark + IPython 完成统计日志空行的数量：读取日志，创建RDD：myrdd = sc.textFile("access.log")不使用累加器：In [6

千家信息网最后更新 2025年12月02日Spark 累加器实验

以下代码用 Pyspark + IPython 完成

统计日志空行的数量：

读取日志，创建RDD：

myrdd = sc.textFile("access.log")

不使用累加器：

In [68]: s = 0In [69]: def f(x):    ...:     global s    ...:     if len(x) == 0:    ...:         s += 1    ...:In [70]: myrdd.foreach(f)In [71]: print (s)

得出结果为：

原因是python 的变量，即使是全局变量不能应用在各个计算进程（线程）中同步数据，所以需要分布式计算框架的变量来同步数据，Spark 中采用累加器来解决：

使用累加器

In [64]: s = sc.accumulator(0)In [65]: def f(x):    ...:     global s    ...:     if len(x) == 0:    ...:         s += 1    ...:In [66]: myrdd.foreach(f)In [67]: print (s)

得出正确结果：

累加器变量数据日志结果同步代码全局分布式原因数量框架空行线程进程应用统计实验数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全永定林业局网络安全管理俄罗斯国家网络安全网络安全素质教育多少分及格数据库得分排行榜 db2数据库有报错数据库数组的个数华为h22h服务器开机界面 sql建立数据库相关属性民生证券无法连接服务器与网络技术有关的职位软件开发模型选择原则微播网络技术北京有限公司服务器磁盘清除信息交换及网络技术下载宝山区网络软件开发常见问题网络安全竞赛英文电脑上安装多个数据库怎么切换网络安全评估算法茂名网络安全工程师待遇好知名催收软件开发公司数据库设置默认时间加1年连云港电信dns服务器查询网站的服务器辽事通核酸全国数据库普陀区网络技术咨询哪家好云帆服务器空中网络安全研究生毕业去向如何进行数据库企业抽样 sql数据库系统安全浙江项目软件开发哪家便宜

相关文章