真的深入了解开源项目是动手实现--《Spark Core 精简版》

This topic created in 1372 days ago, the information mentioned may be changed or developed.

看了许利杰老师的这本书，老师在理论层面讲的比较清楚了，读起来也容易理解，但看完但总是感觉还差点什么。于是动手起了个项目，定了个小目标：实现 RDD 的逻辑。

目前 RDD 的 MVP 已经完成，最大的收获是彻底理解了几个费解的问题：

1 ，Stage 的切分原理，为什么要这么做

2 ，Shuffle 是如何实现的，write/read 是如何衔接

3 ，Partition 为何如此的重要

有兴趣的同学一起 github 交个朋友吧，项目地址 https://github.com/changzhiwin/spark-core-analysis ，特点：

1 ，聚焦在 RDD 层面（这是 Spark 的根本）

2 ，入门明确，代码量小（保留逻辑），容易上手运行（运行起来，理解代码就容易了）

6 replies 2024-09-30 17:34:34 +08:00

winchang

Aug 14, 2022

接下准备集成 rpc 部分，因为并行计算是 rdd 的核心特性； cache 和 checkpoint 也很重要，但可以看成是优化的部分。
1 ，官方在 2.0 时弃用了 akka ，所以也将不依赖这个库
2 ，本着理解核心逻辑，周边逻辑不考虑（例如 metrics ）

winchang

Aug 24, 2022

又来更新了，通过这一阵时间的理解，算是吃透了 spark rpc 的实现（ netty 本身不算哈）。
核心是理解 Dispatcher+MessageLoop+(Inbox/Outbox)，项目已经集成了 Inbox 的特性，持续更新中...

winchang

Aug 27, 2022

update ，完整实现了 rpc 模块，可独立运行

winchang

Sep 1, 2022

Update, 实现了 cluster 模式，支持一个 Driver 进程，多个 Executor 进程运行；
基本达成预设目标，开心一下

shiyanfei5

Oct 25, 2022

厉害！

alisdlyc

Sep 30, 2024

666