Streaming执行Python版WordCount
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,一:先写map类import sysfor line in sys.stdin:line = line.strip( )words = line.split( )for word in words:p
千家信息网最后更新 2025年12月03日Streaming执行Python版WordCount
一:先写map类
import sysfor line in sys.stdin:line = line.strip( )words = line.split( )for word in words:print('%s\t%s' % (word, 1))二:写reduce类
import syscurrent_word = Nonecurrent_count = 0word = Nonefor line in sys.stdin:line = line.strip()word, count = line.split('\t',1)try:count = int(count)except ValueError:continueif current_word == word:current_count += countelse:if current_word:print('%s\t%s' % (current_word,current_count))current_count = countcurrent_word = wordif current_word == word:print('%s\t%s' % (current_word,current_count))三:利用hadoop Streaming执行Python的内容。
hadoop jar /home/hadoop/hadoop-2.6.0-cdh6.5.2/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh6.5.2.jar -input /user/hadoop/aa.txt -output /user/hadoop/python_output -mapper "python mapper.py" -reducer "python reducer.py" -file mapper.py -file reducer.py
说明:
输入和输出路径,本身就是hdfs上的,不需要特殊指定hdfs。
不加×××部分的引号的话,会报错误:
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2
不加粉色部分的内容的话,会报错误:
Error: java.lang.RuntimeException: Error in configuring object
内容
部分
错误
会报
特殊
就是
引号
粉色
路径
输入
输出
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
小米平板总是说数据库异常
windows服务器要怎么登录
江苏外贸进口软件服务器软件
网络技术证书培训机构
oracle数据库测试
服务器1u
软件开发工具磁盘空间
怎么查看别人的云服务器的作业
看不出来格式的数据库文件
软件开发的未来市场占有率
接网站外包需要租服务器吗
云基础服务器生命周期管理
C语言中数据库游标使用
数据库按照模式迁移
项城市网络安全宣传活动
网络安全实训布局图
公司用的软件开发
iphone服务器在贵州吗
h3c 服务器导轨
合肥检测设备软件开发
csgo完美连接到服务器失败
谷歌地球 服务器地址
驱动精灵服务器版
区块链对网络安全工程师
web服务器下载
数据库笔试基础知识
如何教孩子网络安全学习
简述面向对象的软件开发方法
数据库查询结果分页
2019三级网络技术破解