导航：首页 > 互联网科技 >

大数据实践学习总结（3）－－MapReduce

发表于：2025-12-03 作者：千家信息网编辑

千家信息网最后更新 2025年12月03日，关于纠结，曾经很纠结搞大数据的人是否要学习代码，更何况自己是售前方向的。理解原理就可以了，后来发现，纠结的时间越来越多。就明白了，与其纠结是否要去搞代码，不如自己实际操作一下代码，找一个业务场景代入之

千家信息网最后更新 2025年12月03日大数据实践学习总结（3）－－MapReduce

关于纠结，曾经很纠结搞大数据的人是否要学习代码，更何况自己是售前方向的。理解原理就可以了，后来发现，纠结的时间越来越多。就明白了，与其纠结是否要去搞代码，不如自己实际操作一下代码，找一个业务场景代入之后好好学习一下。简单来说：与其纠结，不如实干！

简单来说，MapReduce的学习开始感觉到吃力。可能是跟自己之前没有代码基础有关，虽是学有三年大数据的原理基础，但对相关代码的实现还是没有实际操作过。但敲完这一遍代码，看到最后的WEB结果展示。心里还是多少有些欣慰。对于一些技术，你知道，了解并能够运用到实际工作过程中是要有一个阶段的。

MAP阶段

实际上这一个过程就是要你能够将源文件中的，单词进行一一的统计，这里边用到python语句，写起来也很简单。就是一个简单的映射关系，很容易理解。

实际上，MAP是一个分的思想，相当于当你有大量数据的时候，你需要首先把数据分到不同机器上。而在实际操作过程上，相当于把你的大文件直接放在HDFS的集群上。每一台机器上都进行相关的映射操作。Hadoop上的代码跟VIM的代码基本相同，区别就在于是否前边要加上hadoop这个起始语句。这里还涉及到相关的路径引导，这里主要是在JAVA环境变量里设置，当你设置好之后，就可以通过+TAB键来完全工作。

Reduce阶段

这个是一个合并的过程，相当于对你之前映射后的文件来一个合并归约，而我这次的实践是wordcount操作，相当于是对所有重复的单词来一个统计。

它这个里边涉及到的有FIFO，遍历的算法实现。相当于把你各个机器的工作结果汇总到一台主PC上。而这一个阶段的代码要比MAP阶段多。这一块有数组的相关知识，还有累加函数，这一块是需要有相关函数包的理解的。

在学习MAPREDUCE过程中，发现自己最大的问题就是VIM命令的不熟悉，有些内容，只有你操作过你才能更深入的理解其实现原理。已前只是知道其原理，而在这次MAPREDUCE的学习实践过程中，发现自己的实际操作还是有些不理想，自己也对mapredeuce算是有了一个了解。周未再换一个数据集，再来把已经会的代码熟悉一遍。加油！

ulimit -a #查看所能读文件的能力#

cd /usr/local/src/ #打开hadoop的相应文件夹#

ll #ll为查看文件的相关属性，ls为查看相关文件夹下文件#

touch *.* #建立某一个文件#

mkdir python_mr #建立一个文件夹#

cd /home/badou/python_mr/ #打开相关的mapreduce文件夹#

cd mapreduce_wordcount_python/ #进入相关词频统计函数，通过相应的共享文件目标，将源文件拷贝到此目录下#

rm output result.data #删除之前操作过输出的文档#

#本地查看源文件#

cat The_Man_of_Property.txt

#查看上传的文件，若文件太长，用ctrl+c可退出查看#

cat The_Man_of_Property.txt| head -1

#查看文件中第一个头部信息#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n'

#将所有的空格都转换成换行符#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k1 -nr |

#排序（k,k1,k1列标示，－n -nr按大小顺序OR倒序）#

#把相同的行数进行统计#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k 1 | uniq -c | awk '{print$2"\t"$1}' ｜head

#输出成Key-Value形式#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k 1 | uniq -c | awk '{print$2"\t"$1}' | sort -k2 -nr | head #将输出的K-Value形式进行排序并做头部10行显示#

#上传到hadoop系统中进行处理#

vim ~/.bashrc #进入JAVA的环境变量设置#

export PATH=$PATHJAVA_HOME/bin:/usr/local/src/hadoop-1.2.1/bin #修改引用，将匹配扩展到hadoop#

sourc ~/.bashrc #保存退出后，用命令使已配的环境变量生效#

hadoop fs -ls / #查看hadoop下文件#

hadoop fs -rmr /The_Man_of_Property.txt #删除已上传好的文档#

hadoop fs -put The_Man_of_Property.txt / #上传相应文档，注意：必须是本目录下文件#

hadoop fs -cat /The_Man_of_Property.txt | head #查看hadoop上的文件，但只能看到明文文件#

hadoop fs -text /The_Man_of_Property.txt | head #查看hadoop上的文件，可以看到密文文件和压缩文件#

#map.py 代码#

import sys #定义一个系统模块#

for line in sys.stdin: #从标准输入读取数据#

ss = line.strip().split(' ') #对一行字串进行处理，相当于用空格分隔每个分词，ss是很多单词#

for s in ss: #对每一个单词进行处理#

if s.strip() != "":

print "%s\t%s" % (s, 1) #如果每个单词不为完，则记这个单词为1 #

cat The_Man_of_Property.txt | head | python map.py | head #测试上边的代码是否成功#

#reduce.py 代码#

import sys

current_word = None

count_pool = []

sum = 0 #初始定义参数值#

for line in sys.stdin: #从标准输入读每一行数值#

word, val = line.strip().split('\t')

if current_word ==None: #当前单词是否为空做为判断条件#

current_word = word

if current_word != word:

for count in count_pool:

sum += count

print "%s\t%s" % (current_word, sum)

current_word = word

count_pool = []

sum = 0

count_pool.append(int（val）） #Key追加到相当数组中#

for count in count_pool:

sum += count #对Value相行重复次数求和#

print "%s\t%s" % (current_word, str(sum)) #输出相应的Key-Value值#

#run.sh shell脚本，用来启动map.py与red.py#

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop" #设置目标路径，便于引用#

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

#设置STREAM_JAR_PATH路径，便于输入输出#

INPUT_FILE_PATH_1="/The_Man_of_Property.txt"

OUTPUT_PATH="/output"

# $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

-input $INPUT_FILE_PATH_1 \

-output $OUTPUT_PATH \

-mapper "python map.py" \

-reduce "python red.py" \

-file ./map.py \

-filt ./red.py #向HADOOP上上传相关文件#

./run.sh #直接运行这个shell脚本，调用hadoop运行相关python文件#

很赞哦！

文件代码单词实际数据过程学习阶段输出原理文件夹统计函数变量就是文档机器源文件环境路径数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全幻塔3点服务器登不上手机软件开发商与手机收益比中国rfid市场数据库阿里服务器如何挂mt4 数据库能不能作为打印机用机械行业转软件开发 4子星服务器节点是独立的嘛网络安全5g概念博瑞软件开发有限公司网络技术管理风险数据库系统包括哪些内容数据库怎么存空值杭州市网络安全研究所地址计算机网络技术专业入门书籍推荐数据库技术第四章实验报告数据库不同步的原因国家宣传周如何保护网络安全如何让服务器做管理数据库poi是什么意思数据安全对软件开发的要求 sql数据库怎么还原泰国网络安全法案内容移动硬盘数据库搭建山西博达通互联网科技哪些网络安全对自己非常重要揭东拼团软件开发中心服务器托管河北虚拟主机原神不同服务器的玩家可以联机吗地下城手游服务器要求网鼎网络安全千锋

千家信息网

千家信息网

大数据实践学习总结（3）－－MapReduce

python pyforest库怎么使用

有线桥接和无线桥接有什么区别

相关文章