spark算子join讲解

    xiaoxiao2021-03-25  124

    1.Join是什么

    join定义如下:

    def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]     join方法是对两个需要连接的RDD进行 内连接操作,然后对每个key下的元素进行笛卡儿积操作,返回的结果再展平。

    注意:是内连接

    2.产生两个RDD

    val rdd1 = sc.parallelize(Array(("aa",1),("bb",2))) val rdd2 = sc.parallelize(Array(("aa",3),("dd",1)))

    3.进行join操作

    val joincl = rdd1.join(rdd2)

    4.使joincl变成collect集合

    val joincl2= joincl.collect()

    5.遍历输出集合

    for (i <- 0 to joincl2.length-1){ println(joincl2(i)) }结果为:(aa,(1,3))

    6.完整代码及结果

    7.相关算子讲解

    spark算子union使用

    spark算子map reduce小案例

    spark中textFile、groupByKey、collect、flatMap、map结合小案例(案例虽小,功能齐全) 

    spark算子flatMap与textFile、saveAsTextFile结合小案例

    SparkSQL中DataFrame Operations操作(select、filter、groupBy、count)

    转载请注明原文地址: https://ju.6miu.com/read-5373.html

    最新回复(0)