彻底改变企业AI:ClearML 与 AMD 合作推动大规模创新

2024年12月23日

在转型AI基础设施方面迈出重要一步,ClearML 近期宣布与 AMD 建立合作关系。通过将 AMD 强大的硬件和开源 ROCm 软件与 ClearML 的硬件无关、端到端平台集成,我们正在赋能 IT 团队和 AI 构建者轻松地在各种基础设施上进行创新,并集成来自多个供应商的 GPU。企业现在可以享受一种面向未来的解决方案,以无与伦比的灵活性、可扩展性和效率管理 AI 工作负载。

释放新的可能性

本次合作对 AMD 的 Instinct™ MI300X GPU 加速器和 ROCm™ 软件生态系统提供了强大的支持,这些旨在应对最严苛的 AI 应用,从训练大型语言模型 (LLMs) 到运行复杂的推理工作负载。通过无缝集成 AMD 的尖端加速器和开放软件平台,ClearML 的 AI 平台成为创新的强大引擎,为 AI 构建者和 IT 团队提供无与伦比的性能和控制,同时保持选择所需 AI 基础设施架构的自由。

主要特点和优势

  1. 增强的 AI 性能:将 AMD 的 Instinct MI300X GPU 与 ClearML 平台集成,可确保高效的 AI 模型训练和推理,特别是对于 LLM 等内存密集型工作负载。
  2. 跨基础设施的灵活性:企业可以无缝地在任何基础设施(无论是本地、云端还是混合环境)上开发、训练和部署 AI 模型,同时支持来自 AMD、NVIDIA 等多种 GPU 选项。
  3. 操作简便性:ClearML 统一的 AI 基础设施控制平面提供一键部署、混合云和多云支持以及完整的基础设施控制,使企业能够通过单一界面管理集群、节点和 GPU。
  4. HPC 工作负载的可扩展性:凭借对高性能计算 (HPC) 集群的兼容性以及对基于 Slurm 的调度的支持,ClearML 使组织能够利用现有 HPC 基础设施处理 AI 工作负载,而无需增加复杂性。

这对企业为何重要

随着企业努力提高生产力、推动收入增长和构建更智能的产品,AI 应用正在激增。然而,IT 团队和 AI 构建者面临着日益严峻的挑战:如何在多种基础设施、云环境和 GPU 供应商之间管理大规模 AI 工作负载。这种复杂性可能导致更高的运营成本、供应商锁定和有限的灵活性。ClearML 与 AMD 的合作正是为了直接解决这些痛点。

在新闻稿中,ClearML 联合创始人兼首席执行官 Moses Guttmann 表示:“ClearML 致力于赋能企业按照自己的方式构建、训练和部署 AI 模型,摆脱束缚。我们与 AMD 的合作通过对 AMD 的尖端硬件和 ROCm 软件栈提供无与伦比的支持和无缝体验,进一步巩固了这一愿景。我们共同帮助组织充分释放 AI 创新、实验和大规模生产的潜力。”

AMD 数据中心 GPU 业务部企业发展副总裁 Negin Oliver 呼应了这一观点,他表示:“随着 AI 开发步伐不断加快,AI 构建者需要能够提供优化性能的平台,同时随着工作负载需求的增长保持灵活性。通过在 ClearML 平台中使用带有 ROCm 软件栈的 AMD Instinct MI300X,AI 构建者可以实现这一点,同时提高部署效率和整体效率。”

利用 ClearML 和 AMD 彻底改变 AI 工作流

此次集成由 ClearML 的 AI 基础设施控制平面推动,该平面在一个统一、用户友好的界面中整合了基础设施和工作流。这种方法通过以下方式简化了 AI 操作:

  • 轻松部署:AI 团队可以一键在由 AMD 提供支持的集群上部署和扩展模型,提高生产力的同时消除 AI 基础设施管理的复杂性。
  • 混合云和多云灵活性:无论是在裸金属服务器还是云环境中训练模型,ClearML 都能确保在各种设置下实现无缝兼容。
  • 全面控制:凭借集成的驱动程序、框架和容器,企业可以对其 AI 技术栈获得全面的可见性、安全性和控制,从而提高性能和可靠性。

一个面向未来的开源平台

作为其硬件无关的开源方法的一部分,ClearML 的平台旨在支持:

  • 硬件无关的部署:支持来自 AMD、NVIDIA、Intel、ARM 和其他供应商的 GPU,为企业提供灵活性,选择最适合其工作负载的硬件。
  • 云无关的灵活性:ClearML 平台与 AWS、Azure、GCP 和其他云提供商集成,支持多云和混合云部署。
  • 供应商无关的兼容性:ClearML 支持 PyTorch、TensorFlow 和 Jupyter Notebooks 等流行的 AI 框架,允许与现有工具和工作流无缝集成。
  • 模块化互操作性:企业可以采用整个平台,或将 ClearML 的工具集成到其现有的 AI/ML 生态系统中,例如 Grafana、Slurm、MLflow 和 SageMaker。

ClearML 和 AMD 的优势

ClearML 平台和 AMD 硬件的结合能力为旨在扩展 AI 计划的企业带来了强大的优势:

  • 优化性能:硬件、软件和 AI 工具的全栈集成确保了训练和推理的峰值性能,即使对于大型复杂模型也是如此。
  • 操作灵活性:支持多云、混合云和本地部署,使 IT 团队能够控制其基础设施。
  • 端到端可见性:从开发到部署的 AI 基础设施统一视图,可以实现更好的资源分配、安全性和效率。
  • 成本效益高的可扩展性:ClearML 的 GPUaaS 模型允许企业按需高效地扩展 GPU 资源,最大程度地降低运营成本,同时最大化性能。

ClearML 和 AMD 之间的合作标志着企业 AI 采用的一个关键时刻。通过将 AMD 一流的硬件与 ClearML 的开源、硬件无关的 AI 平台相结合,企业获得了前所未有的控制力、灵活性和性能。这项共同努力确保 AI 构建者、开发人员和 IT 团队能够充分利用 AI 的潜力——避免供应商锁定、硬件限制或运营瓶颈。

ClearML 的 AI 基础设施控制平面在 AMD 的 MI300X GPU 和 ROCm 软件的支持下,为希望在 AI 竞争中保持领先地位的企业提供了面向未来的基础。这种充满活力的合作关系证明了开放协作和共享创新的力量,为企业提供了实现大规模 AI 卓越的清晰路径。

要了解更多关于与 AMD 集成的信息,请联系 ClearML申请演示。 

Facebook
Twitter
LinkedIn
滚动到顶部