Hadoop那些事儿(三)---MapReduce编程浅析

xiaoxiao2021-03-26 32

1.map和reduce

1.1 mapReduce处理逻辑

在本系列文章的第一篇中，曾对MapReduce原理做过简单的描述，在这里再重述一遍。首先我们有两个文件word1.txt和word2.txt 其中word1.txt的内容如下：

aaaa bbbb cccc dddd aaaa

word2.txt的内容如下：

aaaa cccc dddd eeee aaaa

这里的两个文件很小，我们先假设这两个文件很大，分别为64M和96M的大小，然后我们需要统计文件中每个字符串的数量，那么MapReduce的处理流程如下： Input:最左边是输入的过程，输入了图示的数据。 Split分片:mapreduce会根据输入的文件计算分片，每个分片对应与一个map任务。而分片的过程和HDFS密切相关，比如HDFS的一个block大小为64M,我们输入的两个文件分比为64M,96M,这样的话第一个文件生成一个64M的分片&#

转载请注明原文地址: https://ju.6miu.com/read-663244.html

技术

最新回复(0)