作者:Yuval Gabay,MLOps 工程师
引言
在 WSC Sports,我们利用先进的机器学习技术自动生成个性化体育集锦。这需要强大且可扩展的训练平台。我们的解决方案包含用于实验跟踪和管理的 ClearML、用于编排的 Kubernetes 以及用于基于 GitOps 部署的 ArgoCD。这种强大的组合使我们能够利用云资源大规模训练模型、并行执行实验并高效管理机器学习管道。
扩展机器学习面临的挑战
训练复杂的机器学习模型需要大量的计算资源,并且通常涉及运行具有不同配置的众多实验。随着规模的扩大,管理这些实验、跟踪结果和确保可重现性可能会变得具有挑战性。我们需要一个能够做到以下几点的解决方案:
- 提供一个用于实验跟踪的集中式平台。
- 提供可扩展性以处理大型数据集和复杂模型。
- 实现实验的并行执行。
- 简化训练环境的部署和管理。
我们的设置:ClearML、Kubernetes 和 ArgoCD
为了应对这些挑战,我们实施了一个集成了 ClearML、Kubernetes 和 ArgoCD 的解决方案。
ClearML:实验跟踪与管理
ClearML 作为我们管理所有机器学习实验的中心枢纽。它使我们能够:
- 跟踪实验的各个方面,包括代码、配置和结果。
- 比较不同的运行并找出表现最佳的模型。
- 轻松重现实验。
- 管理数据集和工件。
编者按:WSC Sports 使用 ClearML 的 AI 开发中心,这是一个管理 AI 生命周期的一站式解决方案。无论客户是构建以数据为中心的工作流、训练模型还是将其部署到生产环境,ClearML 都提供了一个统一的开源平台,专为灵活性、可扩展性和效率而设计。简化 AI 开发的每个阶段。开放源代码架构完全与云和供应商无关,支持与现有基础设施和工具无缝集成,确保团队能够专注于创新而没有操作障碍。
Kubernetes:编排与可扩展性
Kubernetes 为我们的训练基础设施提供了编排层。它使我们能够:
- 以可扩展的方式部署和管理 ClearML 代理。
- 根据实验需求动态分配资源。
- 在多个节点上并行运行实验。
- 确保高可用性和容错能力。
ArgoCD:用于部署和配置的 GitOps
ArgoCD 使用 GitOps 方法自动化部署和配置我们的 Kubernetes 环境。这意味着:
- 所有基础设施和应用程序配置都存储在 Git 中。
- ArgoCD 自动将 Git 中的所需状态同步到 Kubernetes 集群。
- 通过 Git Pull Request 进行更改,提供清晰的审计追踪和版本控制。
- 为团队提供自助服务功能,以添加各种实例类型。
我们方法的优势
我们的集成解决方案提供了几个显著的优势:
- 可扩展性:Kubernetes 使我们能够轻松扩展训练基础设施,以满足机器学习工作负载的需求。
- 并行执行:我们可以并行运行多个实验,显著缩短训练时间。
- 组织性:ClearML 提供了一个集中式平台,用于跟踪和管理所有实验,确保组织性和可重现性。
- 自助服务:ArgoCD 实现了自助服务模式,允许团队添加不同的实例类型并高效管理他们的环境。
- GitOps:通过 GitOps 管理我们的基础设施确保了一致性、可审计性和易于部署性。
- 云资源利用:我们可以有效地利用云资源,优化成本和性能。
实现 ML 管道
将 ML 管道集成到此设置中非常无缝。ClearML 的管道功能使我们能够定义和执行复杂的工作流,而 Kubernetes 确保了这些管道的可扩展性和可靠性。ArgoCD 管理任何管道特定资源和配置的部署。
结论
通过结合 ClearML、Kubernetes 和 ArgoCD,WSC Sports 构建了一个强大且可扩展的机器学习平台。该解决方案使我们能够高效地训练模型、管理实验并大规模部署基础设施,最终推动我们在自动化体育集锦生成方面的创新。ArgoCD 的 GitOps 方法确保了自助服务和有组织的环境,赋予我们的团队高效有效地工作的能力。
编者按:如果您想了解 ClearML 在简化 AI 和 ML 工作流(以及管理 GPU 集群、优化利用率和轻松部署 GenAI 模型)方面的强大功能,请申请演示。