Hadoop那些事儿(三)---MapReduce编程浅析

    xiaoxiao2021-03-26  32

    1.map和reduce

    1.1 mapReduce处理逻辑

    在本系列文章的第一篇中,曾对MapReduce原理做过简单的描述,在这里再重述一遍。 首先我们有两个文件word1.txt和word2.txt 其中word1.txt的内容如下:

    aaaa bbbb cccc dddd aaaa

    word2.txt的内容如下:

    aaaa cccc dddd eeee aaaa

    这里的两个文件很小,我们先假设这两个文件很大,分别为64M和96M的大小,然后我们需要统计文件中每个字符串的数量,那么MapReduce的处理流程如下: Input:最左边是输入的过程,输入了图示的数据。 Split分片:mapreduce会根据输入的文件计算分片,每个分片对应与一个map任务。而分片的过程和HDFS密切相关,比如HDFS的一个block大小为64M,我们输入的两个文件分比为64M,96M,这样的话第一个文件生成一个64M的分片&#

    转载请注明原文地址: https://ju.6miu.com/read-663244.html

    最新回复(0)