Spark核心API发展史：RDD、DataFrame、DataSet

xiaoxiao2021-03-25 96

Spark第一代api：RDD

RDD:五大核心特征： * - A list of partitions * - A function for computing each split * - A list of dependencies on other RDDs * - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) * - Optionally, a list of preferred locations to compute each split on (e.g. block locations for * an HDFS file)

Spark第二代API：DataFrame

DataFrame核心特征：包含了已ROW为单位的每行数据的列的信息，此时DataFrame就是Table； Tungsten:新的执行引擎 *Catalyst：新的语法解析框架提升计算效率、减少数据读取、底层计算优化；

Spark第三代API：DataSet

DataSet的核心价值和好处：Encoder 编译时的类型安全检查，不需要在执行时期才发现类型不匹配；性能极大的提升内存使用极大降低、减少GC… 极大的减少网络数据的传输… *极大的减少采用scala和java变成代码的差异性…

补充： 1、DataSet会同时可以兼顾Functional和Relational Programming; 2、DataSet可以统一流计算、SQL、ML等的API编程； 3、DataSet最最重要的是效率；底层Tungsten的优化、Encoder、数据在内存和磁盘的存储等等；

转自简书

转载请注明原文地址: https://ju.6miu.com/read-23134.html

技术

最新回复(0)