案例研究

WSC Sports 如何利用 ClearML、Kubernetes 和 ArgoCD 扩展机器学习

2025 年 5 月 19 日

作者:Yuval Gabay,MLOps 工程师

引言

在 WSC Sports,我们利用先进的机器学习技术自动生成个性化体育集锦。这需要强大且可扩展的训练平台。我们的解决方案包含用于实验跟踪和管理的 ClearML、用于编排的 Kubernetes 以及用于基于 GitOps 部署的 ArgoCD。这种强大的组合使我们能够利用云资源大规模训练模型、并行执行实验并高效管理机器学习管道。

扩展机器学习面临的挑战

训练复杂的机器学习模型需要大量的计算资源,并且通常涉及运行具有不同配置的众多实验。随着规模的扩大,管理这些实验、跟踪结果和确保可重现性可能会变得具有挑战性。我们需要一个能够做到以下几点的解决方案:

  • 提供一个用于实验跟踪的集中式平台。
  • 提供可扩展性以处理大型数据集和复杂模型。
  • 实现实验的并行执行。
  • 简化训练环境的部署和管理。

我们的设置:ClearML、Kubernetes 和 ArgoCD

为了应对这些挑战,我们实施了一个集成了 ClearML、Kubernetes 和 ArgoCD 的解决方案。

ClearML:实验跟踪与管理

ClearML 作为我们管理所有机器学习实验的中心枢纽。它使我们能够:

  • 跟踪实验的各个方面,包括代码、配置和结果。
  • 比较不同的运行并找出表现最佳的模型。
  • 轻松重现实验。
  • 管理数据集和工件。

编者按:WSC Sports 使用 ClearML 的 AI 开发中心,这是一个管理 AI 生命周期的一站式解决方案。无论客户是构建以数据为中心的工作流、训练模型还是将其部署到生产环境,ClearML 都提供了一个统一的开源平台,专为灵活性、可扩展性和效率而设计。简化 AI 开发的每个阶段。开放源代码架构完全与云和供应商无关,支持与现有基础设施和工具无缝集成,确保团队能够专注于创新而没有操作障碍。

Kubernetes:编排与可扩展性

Kubernetes 为我们的训练基础设施提供了编排层。它使我们能够:

  • 以可扩展的方式部署和管理 ClearML 代理。
  • 根据实验需求动态分配资源。
  • 在多个节点上并行运行实验。
  • 确保高可用性和容错能力。

ArgoCD:用于部署和配置的 GitOps

ArgoCD 使用 GitOps 方法自动化部署和配置我们的 Kubernetes 环境。这意味着:

  • 所有基础设施和应用程序配置都存储在 Git 中。
  • ArgoCD 自动将 Git 中的所需状态同步到 Kubernetes 集群。
  • 通过 Git Pull Request 进行更改,提供清晰的审计追踪和版本控制。
  • 为团队提供自助服务功能,以添加各种实例类型。

我们方法的优势

我们的集成解决方案提供了几个显著的优势:

  • 可扩展性:Kubernetes 使我们能够轻松扩展训练基础设施,以满足机器学习工作负载的需求。
  • 并行执行:我们可以并行运行多个实验,显著缩短训练时间。
  • 组织性:ClearML 提供了一个集中式平台,用于跟踪和管理所有实验,确保组织性和可重现性。
  • 自助服务:ArgoCD 实现了自助服务模式,允许团队添加不同的实例类型并高效管理他们的环境。
  • GitOps:通过 GitOps 管理我们的基础设施确保了一致性、可审计性和易于部署性。
  • 云资源利用:我们可以有效地利用云资源,优化成本和性能。

实现 ML 管道

将 ML 管道集成到此设置中非常无缝。ClearML 的管道功能使我们能够定义和执行复杂的工作流,而 Kubernetes 确保了这些管道的可扩展性和可靠性。ArgoCD 管理任何管道特定资源和配置的部署。

 

结论

通过结合 ClearML、Kubernetes 和 ArgoCD,WSC Sports 构建了一个强大且可扩展的机器学习平台。该解决方案使我们能够高效地训练模型、管理实验并大规模部署基础设施,最终推动我们在自动化体育集锦生成方面的创新。ArgoCD 的 GitOps 方法确保了自助服务和有组织的环境,赋予我们的团队高效有效地工作的能力。

编者按:如果您想了解 ClearML 在简化 AI 和 ML 工作流(以及管理 GPU 集群、优化利用率和轻松部署 GenAI 模型)方面的强大功能,请申请演示

Facebook
Twitter
LinkedIn
滚动到顶部