大数据
未读
shuffle 算子不一定需要 shuffle
一、Dependency Spark RDD五大属性之一的:依赖列表(Dependency),不仅描述父子 RDD 的血缘关系,更关键描述了父子 RDD 的partitions之间的关系。同时也是判断是否需要划分stage的关键,而stage的划分一定伴随着shuffle spark 的依赖通过抽象