使用 ClearML 管理资源利用率和分配

2024年6月27日

作者:Noam Wasersprung,ClearML 产品负责人

上个月,我们发布了资源分配与策略管理中心,旨在帮助团队可视化其计算基础设施,并了解哪些用户可以访问哪些资源。这项新功能使管理员能够轻松可视化其资源策略,从而在可用资源之间实现工作负载优先级划分。 

新的资源分配与策略管理中心提供了许多优势,例如通过更高的可见性和透明度改进治理,以及实现负载均衡并确保资源更高利用率的能力。AI 团队现在拥有一个简单的界面,可以确保将最高优先级和最快的资源分配给最重要的项目。

这篇博客文章概述了我们的资源分配与策略管理中心,适用于有兴趣提高其 AI 基础设施可见性和控制能力的组织。

ClearML 的资源分配策略管理中心

让我们从定义以及我们如何看待世界开始

资源池

资源池代表一组具有相似特征的资源,应可用于作业执行;例如,一个包含 128 个 GPU 的 H100 superpod 或一个可启动 8 个 GPU 云实例的云自动伸缩器。

管理员为 ClearML 策略管理器定义每个资源池中的可用资源量,以确保作业不会消耗超出定义限制的资源。

资源配置文件

资源配置文件代表作业的资源消耗要求;例如,需要 4 个 GPU 的作业。 

管理员创建资源配置文件作为资源策略的接口,以便根据用户的作业资源需求向其提供对可用资源池的访问。管理员可以控制使用同一资源池的资源配置文件之间的执行优先级;例如,如果一个 4 GPU 作业和一个 8 GPU 作业都在等待,可以让自动伸缩器优先处理更大的需求(反之亦然)。 

管理员控制配置文件中的资源池分配优先顺序;例如,仅当本地 H100 当前无法满足配置文件的资源需求时,才在云自动伸缩器上运行作业。

管理员控制使用同一配置文件的资源策略之间的排队优先级,例如,如果研发团队和运维团队都有待处理的作业,则优先运行研发团队的作业(反之亦然)。

资源策略

ClearML 资源策略允许管理员定义资源配额和预留,以在可用资源之间实现工作负载优先级划分。他们还可以为用户组设置资源预留和限制。

资源策略管理器保证资源预留得到遵守(即,如果资源使用达到容量,用户组将至少拥有预留量的资源用于工作负载执行),并强制执行策略限制。

管理员将资源配置文件分配给策略,并通过 ClearML 队列将其提供给其用户组;即,入队的作业将被分配为其配置文件定义的资源数量。

在 ClearML 中创建和管理资源策略

通过配额、预留和抢占实现魔力

为了最大限度地提高资源利用率,用户可以运行其指定资源策略所能提供的尽可能多的作业,但不能超过策略定义的限制。

同样,策略的资源预留并不会在资源未使用时“阻止”其被使用。

在作业执行达到容量时,策略的资源限制和预留会被考虑进去,以确定哪些作业被分配资源。当一个作业被发送执行且所有资源都在使用中时,ClearML 资源策略管理器将根据作业所有者的资源策略定义来决定是立即执行还是等待资源释放。如果作业所有者用户组当前运行的作业已经消耗了超出其策略预留的资源量,该作业将等待直到有资源释放。

如果需要遵守预留,ClearML 资源策略将通过抢占当前正在运行的作业来释放资源。首先会考虑抢占运行超出其策略预留的作业。 

在抢占正在运行的作业时,ClearML 策略管理器可以调用一个“中止”回调函数,以允许用户适应抢占场景。

ClearML 资源策略管理器系统设计

资源策略的一个示例

假设有 10 个可用资源,并且我们为研发和运维团队配置资源策略,每个团队预留 5 个资源,资源限制为 9 个。

研发团队运行 5 个 3 资源作业。其中 3 个作业将运行(消耗 9 个资源,剩余 1 个空闲资源),符合资源策略限制,其余作业将排队等待资源释放。运维团队现在需要运行一个 3 资源作业。由于他们预留了 5 个资源,研发团队最后启动的作业将被抢占以遵守此预留(释放 3 个资源),然后运维团队的作业将运行。

运维团队现在需要运行一个 2 资源作业。此时,只有 1 个资源可用(因抢占而释放了 3 个资源,这些资源已分配用于遵守运维团队的预留)。由于运维团队仍预留有额外 2 个资源,并且研发团队仍然超出其预留(2 个 3 资源作业消耗了 6 个资源),因此将抢占另一个研发团队的作业以允许此运维团队的作业运行。

结论

希望我们已经展示了我们的资源分配与策略管理中心如何轻松帮助 IT 团队管理其 AI 基础设施的资源策略,以实现工作负载优先级划分。获得关于谁可以访问哪些资源的更高可见性和透明度,并确保您充分利用昂贵的 GPU。 

要了解 ClearML 如何通过更高的利用率和更好的资源分配帮助您的团队从计算基础设施中获得更多收益,请申请演示并与我们的销售团队成员交谈。

Facebook
Twitter
LinkedIn
回到顶部