彻底改变企业AI：ClearML 与 AMD 合作推动大规模创新

2024年12月23日

在转型AI基础设施方面迈出重要一步，ClearML 近期宣布与 AMD 建立合作关系。通过将 AMD 强大的硬件和开源 ROCm 软件与 ClearML 的硬件无关、端到端平台集成，我们正在赋能 IT 团队和 AI 构建者轻松地在各种基础设施上进行创新，并集成来自多个供应商的 GPU。企业现在可以享受一种面向未来的解决方案，以无与伦比的灵活性、可扩展性和效率管理 AI 工作负载。

释放新的可能性

本次合作对 AMD 的 Instinct™ MI300X GPU 加速器和 ROCm™ 软件生态系统提供了强大的支持，这些旨在应对最严苛的 AI 应用，从训练大型语言模型 (LLMs) 到运行复杂的推理工作负载。通过无缝集成 AMD 的尖端加速器和开放软件平台，ClearML 的 AI 平台成为创新的强大引擎，为 AI 构建者和 IT 团队提供无与伦比的性能和控制，同时保持选择所需 AI 基础设施架构的自由。

主要特点和优势

增强的 AI 性能：将 AMD 的 Instinct MI300X GPU 与 ClearML 平台集成，可确保高效的 AI 模型训练和推理，特别是对于 LLM 等内存密集型工作负载。
跨基础设施的灵活性：企业可以无缝地在任何基础设施（无论是本地、云端还是混合环境）上开发、训练和部署 AI 模型，同时支持来自 AMD、NVIDIA 等多种 GPU 选项。
操作简便性：ClearML 统一的 AI 基础设施控制平面提供一键部署、混合云和多云支持以及完整的基础设施控制，使企业能够通过单一界面管理集群、节点和 GPU。
HPC 工作负载的可扩展性：凭借对高性能计算 (HPC) 集群的兼容性以及对基于 Slurm 的调度的支持，ClearML 使组织能够利用现有 HPC 基础设施处理 AI 工作负载，而无需增加复杂性。

这对企业为何重要

随着企业努力提高生产力、推动收入增长和构建更智能的产品，AI 应用正在激增。然而，IT 团队和 AI 构建者面临着日益严峻的挑战：如何在多种基础设施、云环境和 GPU 供应商之间管理大规模 AI 工作负载。这种复杂性可能导致更高的运营成本、供应商锁定和有限的灵活性。ClearML 与 AMD 的合作正是为了直接解决这些痛点。

在新闻稿中，ClearML 联合创始人兼首席执行官 Moses Guttmann 表示：“ClearML 致力于赋能企业按照自己的方式构建、训练和部署 AI 模型，摆脱束缚。我们与 AMD 的合作通过对 AMD 的尖端硬件和 ROCm 软件栈提供无与伦比的支持和无缝体验，进一步巩固了这一愿景。我们共同帮助组织充分释放 AI 创新、实验和大规模生产的潜力。”

AMD 数据中心 GPU 业务部企业发展副总裁 Negin Oliver 呼应了这一观点，他表示：“随着 AI 开发步伐不断加快，AI 构建者需要能够提供优化性能的平台，同时随着工作负载需求的增长保持灵活性。通过在 ClearML 平台中使用带有 ROCm 软件栈的 AMD Instinct MI300X，AI 构建者可以实现这一点，同时提高部署效率和整体效率。”

利用 ClearML 和 AMD 彻底改变 AI 工作流

此次集成由 ClearML 的 AI 基础设施控制平面推动，该平面在一个统一、用户友好的界面中整合了基础设施和工作流。这种方法通过以下方式简化了 AI 操作：

轻松部署：AI 团队可以一键在由 AMD 提供支持的集群上部署和扩展模型，提高生产力的同时消除 AI 基础设施管理的复杂性。
混合云和多云灵活性：无论是在裸金属服务器还是云环境中训练模型，ClearML 都能确保在各种设置下实现无缝兼容。
全面控制：凭借集成的驱动程序、框架和容器，企业可以对其 AI 技术栈获得全面的可见性、安全性和控制，从而提高性能和可靠性。

一个面向未来的开源平台

作为其硬件无关的开源方法的一部分，ClearML 的平台旨在支持：

硬件无关的部署：支持来自 AMD、NVIDIA、Intel、ARM 和其他供应商的 GPU，为企业提供灵活性，选择最适合其工作负载的硬件。
云无关的灵活性：ClearML 平台与 AWS、Azure、GCP 和其他云提供商集成，支持多云和混合云部署。
供应商无关的兼容性：ClearML 支持 PyTorch、TensorFlow 和 Jupyter Notebooks 等流行的 AI 框架，允许与现有工具和工作流无缝集成。
模块化互操作性：企业可以采用整个平台，或将 ClearML 的工具集成到其现有的 AI/ML 生态系统中，例如 Grafana、Slurm、MLflow 和 SageMaker。

ClearML 和 AMD 的优势

ClearML 平台和 AMD 硬件的结合能力为旨在扩展 AI 计划的企业带来了强大的优势：

优化性能：硬件、软件和 AI 工具的全栈集成确保了训练和推理的峰值性能，即使对于大型复杂模型也是如此。
操作灵活性：支持多云、混合云和本地部署，使 IT 团队能够控制其基础设施。
端到端可见性：从开发到部署的 AI 基础设施统一视图，可以实现更好的资源分配、安全性和效率。
成本效益高的可扩展性：ClearML 的 GPUaaS 模型允许企业按需高效地扩展 GPU 资源，最大程度地降低运营成本，同时最大化性能。

ClearML 和 AMD 之间的合作标志着企业 AI 采用的一个关键时刻。通过将 AMD 一流的硬件与 ClearML 的开源、硬件无关的 AI 平台相结合，企业获得了前所未有的控制力、灵活性和性能。这项共同努力确保 AI 构建者、开发人员和 IT 团队能够充分利用 AI 的潜力——避免供应商锁定、硬件限制或运营瓶颈。

ClearML 的 AI 基础设施控制平面在 AMD 的 MI300X GPU 和 ROCm 软件的支持下，为希望在 AI 竞争中保持领先地位的企业提供了面向未来的基础。这种充满活力的合作关系证明了开放协作和共享创新的力量，为企业提供了实现大规模 AI 卓越的清晰路径。

要了解更多关于与 AMD 集成的信息，请联系 ClearML 或申请演示。