随着组织的发展——招募新团队成员、扩展用例以及扩大模型开发的范围,其计算基础设施变得日益复杂。最初可能仅是使用可用积分的单个云账户,但很快就会扩展为本地和云资源的混合体,这些资源具有不同的相关成本并适应不同的工作负载。随着公司的扩展,这种管理不同计算基础设施的复杂性会加深,项目种类也越来越多——从结果不确定的实验性模型到对组织成功至关重要的高优先级、时间敏感型工作负载。
为了应对这一多维挑战,ClearML 推出了其 AI 基础设施控制平面,赋能团队跨本地、云和混合环境监控、编排和优化 GPU 资源。通过利用动态分块 GPU 和高级资源策略,它确保了 AI 工作负载的最大利用率、成本节省和无缝扩展。该系统的核心是资源分配策略管理器,这是一个强大的工具,它为资源分配带来了结构,使管理员能够优先处理最需要的资源,并提供团队使用情况的实时可见性。
在正确的地方使用正确的资源
随着公司的成熟,其计算资源可能会变得越来越异构,多个团队在不同开发阶段和优先级的项目上工作。优先级可能迅速变化——一个有前途的创新项目可能在一夜之间成为利润中心,需要立即调整资源分配。管理这种动态需求是一个重大挑战,因为 IT 管理员需要随着优先级的变化手动调整计算分配。
ClearML 的资源分配策略管理器直接解决了这些复杂性。它通过定义配额,保证为每个团队保留的计算能力,使管理员能够在团队之间高效分配资源。这确保了每个团队都能获得其项目所需的资源。
但是,如果一个团队没有充分使用其配额怎么办?在传统的静态分配模型中,未使用的资源会被浪费。ClearML 通过超配额分配消除了这种低效率。未使用的容量作为“非保证”资源可供其他团队访问,确保更高的利用率而不会影响保证配额。如果一个团队突然需要其保留配额,ClearML 会预占资源,重新排队任务,并重新分配计算资源,以确保始终履行保证分配。
图 1:团队资源分配
这种灵活性也使云服务提供商 (CSPs) 和计算资源经销商受益。通过 ClearML,他们可以提供“Spot 类”实例,提高集群利用率并增强为客户提供的服务质量。
为了简化管理,ClearML 提供了一个直观的控制面板,显示各团队的配额使用情况。管理员可以实时了解集群性能,从而做出更好的决策并确保最佳的资源分配。
ClearML 还提供分块 GPU,使用户能够分配 GPU 的一部分而不是整个 GPU。这允许多个工作负载在同一 GPU 上并行运行,共享其显存 (VRAM) 和计算能力。这对于小型工作负载特别有效,可以最大限度地提高硬件利用率并最大限度地减少闲置资源。
图 2:ClearML 分块 GPU 配置
混合集群管理
如前所述,计算集群是复杂且异构的,包含具有独特成本和优先级的各种资源类型。精细的访问控制通常是必不可少的;实习生可能使用老一代的 GPU,而研究人员则需要访问尖端的 GPU 集群。每个组织根据其需求和运营目标以不同的方式构建其资源。
成本和优先级在资源分配中也起着关键作用。IT 和 DevOps 团队通常更喜欢研究人员使用本地机器,因为它们的运营成本较低且可以对安全性进行更严格的控制。然而,他们也希望避免通过完全阻止云访问来限制性能。实现这种平衡是一个挑战。
ClearML 的资源分配策略管理器通过使管理员能够定义资源优先级来简化此过程。例如,研究人员可以提交任务进行执行,ClearML 会自动确保工作负载首先在本地机器上执行,仅在本地资源被充分利用时才溢出到云端。这种策略驱动的自动化确保了效率,同时最大限度地减少了不必要的云费用。
同样的原则也适用于本地集群内部,其中不同的资源类型可能需要优先级。例如,可以根据工作负载对任务的适用性将其定向到特定的 GPU 或加速器。此功能在混合了训练和推理加速器的混合集群中特别有用,使管理员能够授予团队访问适合其特定需求的硬件的权限。
使用 ClearML 实现混合 GPU 管理的清晰路径
ClearML 的一位客户管理着一个本地 GPU 集群,该集群包含 200 多个 GPU,包括 NVIDIA H100 和 H200 型号,并使用 Kubernetes 进行编排。为了简化其数据科学团队的 GPU 访问,客户使用 ClearML 的 AI 基础设施控制平面定义了四种具有不同 GPU 数量的标准化资源类型:1 个 GPU、2 个 GPU、4 个 GPU 和 8 个 GPU。通过 ClearML 的 Web 界面提交的任务从通用 GPU 池分配本地资源,从而抽象化 Kubernetes 的复杂性并简化了用户体验。
为了应对峰值需求,客户通过云中的 Kubernetes 集群扩展了其可用硬件,并配置为镜像相同的资源类别。与从通用 GPU 池分配不同,每种云资源类型对应一个特定的实例类型。当本地容量被充分利用时,ClearML 会自动扩展云实例来处理溢出,并在不再需要时将其缩减。这种混合方法最大限度地提高了本地基础设施的效率,同时利用了具有成本效益的云可扩展性。
同时,客户除了可以查看每个团队的资源使用详细分解外,还可以使用 ClearML 的集群控制面板实时了解其集群的性能。这种透明度使他们能够监控集群利用率趋势,高效识别和解决瓶颈,并优化资源分配以满足不断变化的需求。
图 3:混合云策略管理
结论
ClearML 的资源分配策略管理器通过在混合环境中实现动态资源分配、超配额灵活性和精细控制,简化了现代 AI 基础设施的复杂性。它确保关键工作负载平稳运行,最大限度地降低云成本,并最大限度地提高集群利用率,为资源管理带来了结构和效率。
要了解有关 ClearML 如何通过策略解决资源分配和管理的更多信息,请阅读我们之前的博文 或阅读文档。有关 ClearML AI 基础设施控制平面的更多信息,请访问我们的网站。如果您想亲身体验,请申请演示,与我们的销售团队成员交流。