CSPs 为何应考虑
使用 GPU 即服务

2024 年 11 月 4 日

作者:Erez Schnaider,ClearML 技术产品营销经理

在构建 AI 模型时,这个过程常常被过度简化为“只要弄块 GPU 开始构建就行了”。虽然获得 GPU 访问权限可能充满挑战,但获得 GPU 集群的访问权限只是开始。真正的复杂性在于如何有效利用 GPU 能力,从而产生有意义的商业影响。

随着对 GPU 需求的增长,各种规模和行业的公司正进入一个传统上由超大规模厂商主导的计算市场。这种转变催生了对新型管理层的需求,这种管理层既能适应各种规模的云服务提供商 (CSPs),又能为 AI 构建者提供类似超大规模厂商的用户友好界面。

新芯片(例如 AMD Instinct 系列)的出现使得对灵活管理层的需求更加迫切。公司需要灵活性来支持多种芯片,包括来自英伟达和 AMD 等老牌公司的芯片,以及 Groq 等新兴 AI 加速器芯片初创公司的芯片,甚至还有 x86 CPU 或 ARM 芯片等 CPU。

ClearML 正通过 AI 基础设施控制平面来满足这些需求,该控制平面符合 CSPs 的严格要求,例如安全性、灵活性(包括支持的芯片和硬件拓扑)以及集群可见性 – 同时为 AI 构建者提供直观、熟悉的界面,简化了从模型开发到部署的整个流程。


图 1:ClearML 集群仪表盘

GPU 访问

如前所述,虽然获得 GPU 访问权限至关重要,但让 AI 构建者能够无缝利用它们并不总是那么简单。基于 Kubernetes 构建的管理系统需要通常不属于 AI 构建者核心专业技能的技能。此外,他们的需求在开发周期的不同阶段会发生变化。

例如,在实验期间,AI 构建者通常在 IDE 或交互式环境中工作,以进行编码、迭代和测试模型。ClearML 通过提供内置于其平台中的浏览器内 Jupyter notebook 或 VS Code 开发环境来简化这些工具的访问。用户可以快速选择机器类型,ClearML 负责资源调配,提供一个即时可用的开发环境,并具有跨重启的环境持久性、空闲检测等附加功能,允许自动关闭空闲实例以节省成本。如果您需要执行更复杂的任务,可以建立 SSH 隧道以进行远程控制台访问到已调配的机器。

涉及到训练时,重点会发生变化。用户不再频繁修改代码;相反,他们专注于微调参数或让模型长时间训练。此时,ClearML 再次介入,使用户能够将训练作业发送到特定的机器类型。ClearML 负责协调一切——从复制原始环境到应用代码更改,再到监控实验结果和机器性能指标。

这些接口很重要,因为它们抽象了底层管理系统(无论是 Kubernetes 还是 VM)的复杂性,使 AI 构建者的开发过程更加直观。

调度能力

在团队、部门或业务单元之间划分资源需要平衡每个组的需求,同时力求最大化整体资源利用率。一方面,团队需要有保障的配额,以便自信地进行规划,知道他们拥有最低限度的资源。另一方面,固定配额的方式可能导致效率低下,因为未使用的资源可能处于闲置状态。ClearML 提供了一个平衡的解决方案:用户在严格的配额内工作,确保有保障的最低资源分配,同时还能受益于超配额分配,这允许团队在可用时利用未使用的资源。这种动态系统优化了资源利用率,同时确保满足每个团队的最低配额。

对于异构计算环境,例如将 H100 等训练加速器与 L40 等推理加速器结合在一起的集群,ClearML 提供了资源策略,可以在不同计算类型之间创建结构化的层级。这使得团队能够根据设定的规则优先处理和调度作业,确保计算资源根据每个任务的具体需求得到有效利用。

安全可扩展的多租户

作为云提供商,您的资源在多个消费者(包括团队或公司)之间共享,因此安全性和数据隔离对于防止租户之间的数据泄露至关重要。ClearML 将多租户视为一种多层解决方案,旨在实现强大的隔离和安全性。

首先,ClearML 的后端结构使得每个客户都可以操作一个服务于多个租户的单一控制平面,每个租户在其自身环境中完全隔离,确保无法查看或访问其他租户的数据。ClearML 还提供用于租户入职的 API,并与外部身份提供商 (IDP) 集成,同时提供内置的 SSO。

其次,ClearML Agent 在多个层面支持租户隔离。它利用 Kubernetes 命名空间来隔离租户,使用 Kubernetes 的内置功能实现安全隔离。此外,ClearML 允许在网络层面进行租户隔离,为每个租户创建独立的虚拟网络,防止跨租户访问。对于有更高安全需求的客户,ClearML 支持为每个租户运行专用集群。 

不运行 Kubernetes?没问题!ClearML 支持混合架构,ClearML Agent 可以在裸金属、VM、容器化环境中运行,甚至可以在 SlurmPBS 等调度程序之上运行。

此外,每个系统组件(无论是项目、数据集还是计算资源)都可以由访问规则进行管理,确保只有获得授权的实体才能读取或修改系统内的数据。

细粒度计费能力

将计算资源转售给其他公司需要精确的计费能力。CSPs 不仅必须跟踪确切使用的计算时间,还必须能够根据平台使用情况(例如 API 调用和存储)向客户收费,具体取决于其特定的定价计划。ClearML 通过在每个计算资源上运行的计费代理来满足这一需求,该代理准确跟踪存储和使用情况。此外,ClearML 允许客户将自定义事件连接到其计费系统,从而能够创建基于 ClearML 基础设施的定制定价计划。

不仅仅是 GPU 即服务

除了 GPU 即服务 (GPUaaS) 之外,ClearML 的用户还可以使用其 AI 开发中心,这是一个旨在组织、跟踪和自动化 AI 工作流的 AI/ML 工具。ClearML 的 AI 开发中心与其 GPUaaS 能力无缝集成,提供一个用于提交 AI 工作负载的单一接口,这些工作负载由 ClearML 的调度程序进行资源调配和调度。ClearML 的 GenAI 应用引擎允许在已调配的 GPU 上进行推理和模型管理,为基础设施和部署提供一个单一的控制台。

结论

随着对 GPU 需求的增长,可扩展、安全且用户友好的基础设施至关重要。ClearML 通过其 GPU 即服务解决方案满足了这一需求,该解决方案既满足了云服务提供商的要求,又简化了 AI 开发过程。从优化资源利用率和确保多租户安全到实现精确计费,ClearML 帮助组织精简 AI 工作流并专注于创新,对其基础设施充满信心。

要了解更多关于 ClearML 面向 CSPs 的 GPU 即服务解决方案的信息,请访问我们的网站阅读我们的新闻稿。如果您想亲眼看看它的实际效果,请申请演示,与我们的销售团队成员交流。

Facebook
Twitter
LinkedIn
回到顶部