1.map和reduce
1.1 mapReduce处理逻辑
在本系列文章的第一篇中,曾对MapReduce原理做过简单的描述,在这里再重述一遍。 首先我们有两个文件word1.txt和word2.txt 其中word1.txt的内容如下:
aaaa
bbbb
cccc
dddd
aaaa
word2.txt的内容如下:
aaaa
cccc
dddd
eeee
aaaa
这里的两个文件很小,我们先假设这两个文件很大,分别为64M和96M的大小,然后我们需要统计文件中每个字符串的数量,那么MapReduce的处理流程如下: Input:最左边是输入的过程,输入了图示的数据。 Split分片:mapreduce会根据输入的文件计算分片,每个分片对应与一个map任务。而分片的过程和HDFS密切相关,比如HDFS的一个block大小为64M,我们输入的两个文件分比为64M,96M,这样的话第一个文件生成一个64M的分片
转载请注明原文地址: https://ju.6miu.com/read-663244.html