作业调度算法优化 #669

heziai · 2020-01-16T03:04:58Z

背景

现阶段的作业调度平衡算法，是基于域下作业分片负荷加权总和均匀为目的的。不区分作业，只有作业负荷这个变量。
上述算法的结果，可能导致存在这样的作业，其分片不是均匀分配给Executor的。
如果该作业消耗资源高，我们会尝试将其负荷调大，从而达到平均分配的目的。但是，如果存在多个作业消耗资源都很高，那么负荷就不是那么好用了。而且需要大量的手工操作。
所以，需要提供一种新的算法，将作业的分片平均分配给Executor。

场景

Executor上线

算法保持不变

Executor下线

算法保持不变

Executor作业上线

新机器的红色作业上线，模拟图如下：

旧算法

阶段一：1台机器，红色作业有2个分片，绿色作业有2个分片。
阶段二：1台旧机器，1台新机器对红色作业上线。基于executor总负荷平均的算法，结果是，红色作业的2个分片都被分配到新机器。

新算法

阶段一：1台机器，红色作业有3个分片，绿色作业有2个分片，蓝色作业有1个分片。
阶段二：1台旧机器，1台新机器对红色作业上线。基于executor的红色作业负荷平均的算法，结果是，2台机器分别得到红色作业的1个分片。

Executor作业下线

第3台机器的红色作业下线，模拟图如下：

旧算法

阶段一：3台机器，红色作业有2个分片，绿色作业有2个分片、且设置了优先节点为第1台机器。
阶段二：第3台机器对红色作业下线。基于executor总负荷平均的算法，结果是，第3台机器的红色分片被分配给了第2台机器。

新算法

阶段一：3台机器，红色作业有2个分片，绿色作业有2个分片、且设置了优先节点为第1台机器。
阶段二：第3台机器对红色作业下线。基于executor的红色作业负荷平均的算法，结果是，第3台机器的红色分片被分配给了第1台机器。为什么呢？因为第1、2台机器应该分别得到2个红色分片。

作业启用

红色作业启用，模拟图如下：

旧算法

阶段一：2台机器，绿色作业有2个分片，绿色作业设置了优先executor为第2台机器。
阶段二：红色作业有2个分片，启用红色作业。基于executor总负荷平均的算法，结果是，红色作业的2个分片都被分配到第1台机器。

新算法

阶段一：2台机器，绿色作业有2个分片，绿色作业设置了优先executor为第2台机器。
阶段二：红色作业有2个分片，启用红色作业。基于executor的红色作业负荷平均的算法，结果是，2台机器分别得到红色作业的1个分片。

作业禁用

算法不变

Executor流量摘取

摘取算法不变。
放回算法改变：放回到总负荷最小的Executor -> 放回到该作业总负荷最小的Executor。

Executor流量恢复

摘取算法改变，与Executor作业上线相同。
放回算法改变：放回到总负荷最小的Executor -> 放回到该作业总负荷最小的Executor。

作业重排

摘取算法不变。
放回算法改变：放回到总负荷最小的Executor -> 放回到该作业总负荷最小的Executor。

全量分片

摘取算法不变。
放回算法改变：放回到总负荷最小的Executor -> 放回到该作业总负荷最小的Executor。

kfchu · 2020-02-02T15:27:11Z

能否减少/合并sharding的次数？实际上在executor陆续上线的过程中是会产生大量jobServer online事件，而这些事件是否都是必要的？

heziai · 2020-02-03T04:15:19Z

@kfchu 如果想减少响应事件次数，执行的算法，简单地用”全量分片“就行，减少复杂度，没必要针对不同的事件。如此的话，改动较大，如果有必要，放到以后再做吧。

heziai added the enhancement label Jan 16, 2020

heziai self-assigned this Jan 16, 2020

heziai added a commit that referenced this issue Jan 16, 2020

#669 sharding enhancement

d0b76b9

heziai added this to the 3.4.0 milestone Jan 19, 2020

kfchu added a commit that referenced this issue Feb 2, 2020

#669 add code review comment

bde3247

heziai added the done label Feb 3, 2020

kfchu added the review done label Feb 4, 2020

kfchu mentioned this issue Feb 21, 2020

Sharding logic optimization #525

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

作业调度算法优化 #669

作业调度算法优化 #669

heziai commented Jan 16, 2020 •

edited

Loading

kfchu commented Feb 2, 2020

heziai commented Feb 3, 2020

作业调度算法优化 #669

作业调度算法优化 #669

Comments

heziai commented Jan 16, 2020 • edited Loading

背景

场景

Executor上线

Executor下线

Executor作业上线

旧算法

新算法

Executor作业下线

旧算法

新算法

作业启用

旧算法

新算法

作业禁用

Executor流量摘取

Executor流量恢复

作业重排

全量分片

kfchu commented Feb 2, 2020

heziai commented Feb 3, 2020

heziai commented Jan 16, 2020 •

edited

Loading