千家信息网

hadoop搭建及wordcount实例运行分析

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,本篇内容主要讲解"hadoop搭建及wordcount实例运行分析",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"hadoop搭建及wordcount实例运
千家信息网最后更新 2025年12月02日hadoop搭建及wordcount实例运行分析

本篇内容主要讲解"hadoop搭建及wordcount实例运行分析",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"hadoop搭建及wordcount实例运行分析"吧!

前提准备:由于hadoop是基于linux,那就先要在windows下模拟出linux环境来,现推荐几款软件:cygwin、hadoop4win、HDP和vmware。

cygwin:Cygwin是一个在windows平台上运行的类UNIX模拟环境,Cygwin 提供一个UNIX 模拟 DLL 以及在其上层构建的多种可以在 Linux 系统中找到的软件包,在 Windows XP SP3 以上的版本提供良好的支持。简单说就是unix下的命令行和windows的cmd一样!

hadoop4win:是一个集成包包括cygwin、hadoop、jdk、hbase。这些都是hadoop需要的,安装上hadoop4win都包括了,直接运行hadoop就行了。这个还在增加包,有个缺点就是自带的hadoop版本是0.2.0有点低最新的是2.6.0.

HDP:Hortonworks Data Platform (HDP) 完全在开源的环境下设计、开发和构建,提供企业可用的数据平台,让组织能够采用现代化数据架构。

HDP 以 YARN 作为其架构中心,是一系列处理方法(从批量到交互式再到实时)的多个工作负荷数据处理平台,拥有企业数据平台所需的关键能力 - 广泛的管制、安全和运营。

这个是个集成工具,可以在vmware下打开,这是个虚拟机,可以直接打开不用安装。估计这是趋势。我在研究中,大家可以一起讨论。

正文开始:我用了3中方法,第一种失败,第二种和第3中成功,花了不少时间,真是获益颇多。

1:现在windows下安装cygwin,这个安装起来比较麻烦,俺花了3天时间,最后还是没成功,这是很重要的一步。虽然没成功,可学了不少东西,对后面其他的安装很有帮助。*下载cygwin一定去官网下最新的,要不然安装是有一步提示选择镜像,就会出错,或者直接在地址栏输入http://www.cygwin.com/setup-x86.exe这是32位,要是64位把x86改成x86_64就行了。

安装的过程中会提示安装包,有两个要选上openssh和openssl这两个在net目录下,或者直接在上面搜就可以。这2个一定要选的。安装好后要配置运行cygwin输入ssh-host-config,下面的我就不说了,网上一搜一大把。中间会提示错误/var pression denied 这就要给这个文件付权限。只要输入下面代码:chmod 777 /var和 chown :Users /var这两个多试几遍就行了,我的也是有时候数一遍不行。777代表最高权限,网上还有其他数字,这个就行。

最重要的一步:我就卡在这里了,开启ssh服务,用命令net start sshd,再把私钥设置成公摇命令:ssh-keygen这一步会有提示直接点回车就行,接着输入cd ~/.ssh、cp id_rsa.pub authorized_keys.

最后要验证net start sshd输入命令ssh localhost没提示说明正确。如果提示Connection closed by ::1 就错了
。我的就到这就走不动了,因为跑hadoop项目是ssh要联通,要不然跑不动的。cygwin配置网上很多,可以尝试,接下来就是俺成功的配置。

注意:可能和系统有关,我换了个win7,安装上了,原来问win8.1安装不上,具体没去研究。你可以试试换个系统试试

2:下载hadoop4win 地址http://sourceforge.net/projects/hadoop4win/files/0.1.4/hadoop4win-setup-net_0.1.4.zip/download 直接安装就行了,里面的东西都有了,运行hadoop4win,先看安装目录有个opt/hadoop/bin,进入这个文件夹内,(注意:安装时必须以管理员身份运行,不然会出现安装不全,缺少快捷方式的错误)输入命令 ls 下图:

选择里面的hadoop-daemon.sh脚本命令:hadoop-daemon.sh start namenode


用jps命令查看进程

显示namenode 这个进程说明成功了,一共有5个进程都要开启,namenode、datanode、secondarynamenode、jobtracker、tasktracker.这5个有顺序的就是上面顺序,具体这5个的作用自已可以google,下图显示


接下来打开浏览器输入:localhost:50030和localhost:50070,查看是否成功显示如下:

1:

2:

显示这两个说明你安装成功了,下面跑一个wordcount例子,是hadoop4win自带的一个jar包,有2种方法一个命令行,一个是eclipse下,新手建议命令行,这样可以了解过程,熟悉后在eclipse。

先建一个txt文件随便输入内容我的如下

把这个文件上传到HDFS文件系统下现在hadoop4win命令下进入本地目录下 cd d: 再用命令:hadoop fs -put hello.tex /


接下来打开localhost:50070查看文件,点击browser the filesystem,看有没有hello.txt

1:

2:

这样就是给上传成功了。接下来运行jar包。命令如下图

运行hadoop-0.20.2-examples.jar这个包,命令如下:hadoop jar hadoop-0.20.2-examples.jar wordcount hello.txt /sum.txt其中、sum.txt是自己定义的文件,可以其他。图如下:


然后打开localhost:50070,就会出现sum.txt,查看里面的内容,点开查看内容:

上面的写的很贱减略,能力有限,其中许多linux下的命令没说,看不懂的可以看一下这个视频很详细 http://www.ppvke.com/10354.html

上面的算是讲完了,可能要花点时间去查看其中的很多地方,多去想,多动手,多google!下面是第3种正在研究中,分享一下子:

3:

先安装虚拟机,vmware这就不讲了,安装后打开虚拟机导入下载的文件,地址:http://zh.hortonworks.com/hdp/downloads/


直接打开就行了,打开后到最后会出现一个地址形式是:192.168.xxx.xxx

到此,相信大家对"hadoop搭建及wordcount实例运行分析"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

命令 运行 成功 文件 输入 提示 内容 就是 接下来 两个 地址 平台 数据 方法 系统 这是 实例 分析 环境 目录 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 中央网络安全和信息化宋绍泰 衡水恒科软件开发有限公司 rds数据库用什么软件链接 服务器厂家属于什么行业 卓创网络技术有限公司 如何在武装突袭3架设服务器 服务器更好主板 福建工程学院数据库怎么用 我的世界服务器怎么设置私聊 远程服务器提示没有登录成功 护航国庆网络安全 海融科技互联网金融有限公司 互联网科技五大专业学院 腾讯云服务器挂机教程-简书 国家公共安全数据库官网 重庆铜梁配送生鲜软件开发 软件开发实训平台模块 焰火移动互联网科技有限公司 安卓软件开发 赚钱 关于网络安全类型的手抄报 宁海直销软件开发项目管理 开发数据库连接 群星正在等待服游戏匹配服务器 江苏省网络安全大学排名 嘉定区新能源软件开发收费 771服务器 开设专门的网络安全教育课程 深圳华为服务器在哪里生产 淮南软件视频系统服务器 数据库池连接数
0