我们在2024年初的路线图主要侧重于改进编排和计算基础设施管理能力。上个月,我们发布了一个资源分配策略管理控制中心,其全新的简化UI可帮助团队可视化其计算基础设施并了解哪些用户可以访问哪些资源。我们还在GitHub上提供的ClearML开源版本中为所有NVIDIA GPU(新旧型号)启用了分数GPU功能,因此现在所有自托管的ClearML用户都可以利用GPU切片并最大限度地提高其硬件利用率。您可以在我们之前的博客文章中阅读更多信息。
现在,我们将重点扩展到通过可见性和简化来减少管理和控制AI基础设施的开销。ClearML以空前的轻松和效率提供了可扩展性。我们支持在Kubernetes、Slurm、PBS或裸机上运行的工作负载,使我们的平台成为用于管理专为AI和HPC工作流程构建的AI基础设施的最全面的可用工具。ClearML用户现在可以以无与伦比的轻松和效率,在任何规模的任何AI基础设施上,无缝地构建、训练和部署他们的AI和机器学习工作流程。
ClearML 与 Kubernetes
ClearML 作为客户端在您的集群上与 Kubernetes 或 Kubernetes 即服务一起工作。
Kubernetes (K8s) 是一个强大的平台,用于在计算基础设施上管理IT服务的容器化应用,AI团队经常将其用于训练和推理工作负载。Kubernetes 旨在确保服务的正常运行时间,对其管理(特别是AI团队的需求)是复杂而精细的。访问权限通常仅限于DevOps,强烈不鼓励向其他人开放访问权限,因为存在导致整个系统崩溃的风险。
ClearML 帮助利益相关者访问计算集群,而无需直接暴露对 Kubernetes 集群的访问。该平台为AI构建者提供了整个AI生命周期的无缝端到端体验。团队可以在同一平台上使用相同的基础设施,以最小的阻力预处理数据、训练/微调模型,并将它们部署到他们的 Kubernetes 生产环境中。我们的 Kubernetes 原生解决方案还通过调度、优先级、配额管理和动态分数 GPU 功能,扩展了 K8s 的配置能力,此外还包括用户和多租户管理。一旦管理员设置了基于角色的访问控制和存储凭据,AI 构建者就可以根据资源分配策略允许的范围,自助获取计算资源并管理他们自己的 AI/HPC 工作负载。所有作业的数据和结果都会被记录下来,发送到指定的存储位置,并通过 ClearML Web 界面进行集中访问。
使用 ClearML,DevOps 基本上可以停止将时间花在 AI 团队的琐碎请求上,将机器配置委托给 ClearML,并将时间集中在更重要的任务上,例如通过分数 GPU 或改进的配额和调度策略来优化计算利用率。管理员还可以享受从 K8s 集群外部启动 AI 作业或添加云溢出以扩展超出本地/云区域计算能力的好处。
ClearML 与 Slurm/PBS
ClearML 是市场上第一个与 Slurm 和 Altair PBS 协同工作的 AI 平台。
Slurm 和 PBS 是高性能调度工具,支持抢占式调度和组调度、公平共享调度、高级预留和高级策略管理。Slurm 和 PBS 集群具有高度可扩展性,其软件因专为优化处理资源密集型 AI/HPC 作业的计算集群而开发,因此常被世界顶级超级计算机使用。然而,由于这些工具缺乏对集群实际运行情况的可见性,以及设置作业环境和与 CI/CD 工作流程等外部自动化集成的困难,与 Slurm/PBS 协同工作具有挑战性。
使用 ClearML,开发 AI 模型的数据科学家可以无缝地进行实验运行、模型训练、数据集操作以及使用管道和自动化。然后将作业放入映射到 Slurm/PBS 模板作业的队列中。作业执行时,ClearML Agent 编排环境设置以启动作业。为了防止作业在 Slurm 上失败,ClearML 处理了许多所需的小细节。例如,ClearML 为每个作业设置正确的环境(参数、配置)和工作数据连接(甚至是通过 Singularity 的容器)。ClearML 还监控作业的机器利用率(CPU/GPU/内存等),以提供有关集群资源利用率的见解。
AI 团队对其 ClearML 队列(甚至是发送到 Slurm/PBS 的队列)具有完全可见性。数据科学家和管理员可以访问队列中的作业,并在优先级发生变化时停止或从队列中删除它们,并且很容易查看每个作业的状态。使用 ClearML,团队不仅可以查看单个或多个 Slurm/PBS 集群中的作业,还可以对其进行更改。
ClearML 与裸机
对于喜欢最少开销和管理的 AI 团队来说,ClearML 让裸机为您工作。
在 ClearML 上构建 AI 的团队可以轻松利用裸机机器(包括他们自己的工作站)来运行 AI 工作负载。ClearML Agent 可以安装在裸机上,立即使这些机器可用于关联队列以运行作业。该解决方案真正实现了即插即用。ClearML 支持容器化应用和虚拟环境应用,无需自定义网络设置或配置防火墙,为需要完全可访问的远程 GPU 机器但又不想管理大型集群的团队提供了真正简单的解决方案。
结论
使用 ClearML,AI 团队可以控制和查看每个人可以访问哪些资源(或资源的细分),并轻松自助获取计算资源,而无需更改其日常工作流程的任何部分。
随着计算基础设施在2024年面临日益增长的需求,最大限度地利用每个 GPU 将成为优先事项。通过我们最新的产品更新,组织将能够极大地优化其计算基础设施。要了解更多信息,请申请演示,与我们的销售团队成员交流。