cda吧 关注:3,606贴子:4,314
  • 0回复贴,共1

数据倾斜是什么?

只看楼主收藏回复

数据倾斜是开发画像过程中常遇到的问题,当任务执行一直卡在 map 100%、reduce 99%,最后的1%花了几个小时都没执行完 时,这时一般是遇到了数据倾斜。 问题出现的原因是当进行分布式计算时,由于某些节点需要计算 的数据较多,导致其他节点的reduce阶段任务执行完成时,该节点的 任务还没有执行完成,造成其他节点等待该节点执行完成的情况。比 如两张大表在join的时候大部分key对应10条数据,但是个别几个key 对应了100万条数据,对应10条数据的task很快执行完成了,但对应 了100万数据的key则要执行几个小时。


1楼2023-03-03 16:51回复