简单说一下hadoop和spark的shuffle过程

发布于 2020-03-25 22:10:26
关注者
0
被浏览
786
Luke老师
Luke老师 2020-03-25
这家伙很懒,什么也没写!

Hadoop:map端保存分片数据,通过网络收集到reduce端。

Spark:spark的shuffle实在DAGSchedular划分Stage的时候产生的,TaskSchedular要分发Stage到各个worker的executor。减少shuffle可以提高性能

1 个回答

撰写答案

请登录后再发布答案,点击登录

发布
问题

分享
好友

手机
浏览

扫码手机浏览