博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
WordCount运行笔记
阅读量:4299 次
发布时间:2019-05-27

本文共 2648 字,大约阅读时间需要 8 分钟。

前期工作:

Hadoop正常开启,将WordCount.Java文件放在Hadoop安装目录下,并在目录下创建输入目录input,目录下有输入文件file1、file2。其中:

file1的内容为:

hello world

file2的内容为:

hello Hadoop

hello mapreduce

准备好之后在命令行输入命令运行。下面对执行的命令进行介绍:

1)在集群上创建输入文件夹:

xiaoqian@ubuntu:~/opt/hadoop$ sudo bin/hadoop fs -mkdir input3

2) 上传本地目录input下的几个file文件到集群上的input3目录下:

xiaoqian@ubuntu:~/opt/hadoop$ sudo bin/hadoop fs -put input/file* input3

3)编译WordCount.Java程序,将结果放入当前目录的wordcount_classes目录下:

xiaoqian@ubuntu:~/opt/hadoop$ javac -classpath hadoop-0.20.1-core.jar:lib/commons-cli-1.2.jar -d wordcount_classes WordCount.java

4)将编译结果打成jar包:

xiaoqian@ubuntu:~/opt/hadoop$ jar -cvf wordcount.jar -C WordCount

5)  在集群上运行WordCount程序,以input3目录作为输入目录,output3目录作为输出目录:

xiaoqian@ubuntu:~/opt/hadoop$ sudo bin/hadoop jar wordcount_classes.jar org.apache.hadoop.examples.WordCount input3 output3
14/04/21 17:56:52 INFO input.FileInputFormat: Total input paths to process : 2
14/04/21 17:56:52 INFO mapred.JobClient: Running job: job_201404211455_0013
14/04/21 17:56:53 INFO mapred.JobClient:  map 0% reduce 0%
14/04/21 17:57:02 INFO mapred.JobClient:  map 100% reduce 0%
14/04/21 17:57:14 INFO mapred.JobClient:  map 100% reduce 100%
14/04/21 17:57:16 INFO mapred.JobClient: Job complete: job_201404211455_0013
14/04/21 17:57:16 INFO mapred.JobClient: Counters: 17
14/04/21 17:57:16 INFO mapred.JobClient:   Job Counters 
14/04/21 17:57:16 INFO mapred.JobClient:     Launched reduce tasks=1
14/04/21 17:57:16 INFO mapred.JobClient:     Launched map tasks=2
14/04/21 17:57:16 INFO mapred.JobClient:     Data-local map tasks=2
14/04/21 17:57:16 INFO mapred.JobClient:   FileSystemCounters
14/04/21 17:57:16 INFO mapred.JobClient:     FILE_BYTES_READ=71
14/04/21 17:57:16 INFO mapred.JobClient:     HDFS_BYTES_READ=41
14/04/21 17:57:16 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=212
14/04/21 17:57:16 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=37
14/04/21 17:57:16 INFO mapred.JobClient:   Map-Reduce Framework
14/04/21 17:57:16 INFO mapred.JobClient:     Reduce input groups=0
14/04/21 17:57:16 INFO mapred.JobClient:     Combine output records=5
14/04/21 17:57:16 INFO mapred.JobClient:     Map input records=3
14/04/21 17:57:16 INFO mapred.JobClient:     Reduce shuffle bytes=47
14/04/21 17:57:16 INFO mapred.JobClient:     Reduce output records=0
14/04/21 17:57:16 INFO mapred.JobClient:     Spilled Records=10
14/04/21 17:57:16 INFO mapred.JobClient:     Map output bytes=65
14/04/21 17:57:16 INFO mapred.JobClient:     Combine input records=6
14/04/21 17:57:16 INFO mapred.JobClient:     Map output records=6

14/04/21 17:57:16 INFO mapred.JobClient:     Reduce input records=5

6)查看输出结果:

xiaoqian@ubuntu:~/opt/hadoop$ sudo bin/hadoop fs -cat output3/part-r-00000

hadoop 1

hello 3
mapreduce 1

world 1

转载地址:http://xrsws.baihongyu.com/

你可能感兴趣的文章
PHP 实现笛卡尔积
查看>>
Laravel中的$loop
查看>>
CentOS7 重置root密码
查看>>
Centos安装Python3
查看>>
PHP批量插入
查看>>
laravel连接sql server 2008
查看>>
Laravel 操作redis的各种数据类型
查看>>
Laravel框架学习笔记之任务调度(定时任务)
查看>>
laravel 定时任务秒级执行
查看>>
浅析 Laravel 官方文档推荐的 Nginx 配置
查看>>
Swagger在Laravel项目中的使用
查看>>
Laravel 的生命周期
查看>>
CentOS Docker 安装
查看>>
Nginx
查看>>
Navicat远程连接云主机数据库
查看>>
Nginx配置文件nginx.conf中文详解(总结)
查看>>
Mysql出现Table 'performance_schema.session_status' doesn't exist
查看>>
MySQL innert join、left join、right join等理解
查看>>
vivado模块封装ip/edf
查看>>
sdc时序约束
查看>>