案例研究

大众汽车机器学习研究实验室如何使用 ClearML 提高生产力和缩短原型开发时间

2024年6月4日

客户概览

我们最近采访了大众汽车集团机器学习研究实验室的研究科学家 Philip Becker-Ehmck 博士,以了解 ClearML 如何改进了他们的 MLOps 工作流程。

大众汽车集团是世界领先的汽车制造商之一,总部位于德国沃尔夫斯堡。它在全球运营,在19个欧洲国家以及美洲、亚洲和非洲的十个国家拥有114家生产工厂。集团旗下涵盖来自五个欧洲国家的十个品牌:大众汽车、大众商用车、斯柯达、西雅特、库博拉、奥迪、兰博基尼、宾利、保时捷和杜卡迪。此外,大众汽车集团还提供广泛的其他品牌和业务部门,包括金融服务。

Dr. Philip Becker-Ehmck Research Scientist Volkswagen Machine Learning Research Lab

Philip Becker-Ehmck 博士

研究科学家 | 大众汽车机器学习研究实验室

面临的挑战

在使用 ClearML 之前,大众汽车机器学习研究实验室一直在寻找提高生产力和缩短原型开发时间的方法。他们力求最大限度地减少研究人员在基础设施、实验设置和管理方面花费的时间。他们还需要将工作负载部署到内部计算集群,以更有效地利用现有资源。 

问题在于,他们没有一个单一的端到端平台来自动化和协调整个机器学习生命周期。这意味着几件事:他们无法轻松比较实验结果,没有工作负载优先级选项,而且他们遇到了 Becker-Ehmck 博士所说的“不可忽视的管理开销”,这意味着他们需要自行扩展开源解决方案以满足他们的需求。

为了提高团队生产力,获得对训练、模型和数据(包括指标和日志记录)的单一视图非常重要。他们寻求用一个足够简单的界面替换其用于编排、实验管理、数据操作和模型管理的整个 MLOps 堆栈,以便其研究人员无需大量技术支持即可工作。

“对于机器学习研究人员来说,一个涵盖所有这些需求的系统是他们工作的基础。我们还希望让我们的用户能够轻松地交互式访问计算资源,并且需要支持不同队列和对非常异构的工作负载进行优先级排序,”Becker-Ehmck 博士说道。“此外,我们还寻求与市场领先的机器学习框架无缝集成,以及集成用户管理,包括基于角色的访问控制,以保持合规性。”

该团队在积极寻找 MLOps 解决方案时发现了 ClearML,他们在 https://mymlops.com (他们是在 MachineLearning subreddit 上找到的)上找到了它。

“我们选择 ClearML 是因为它提供了一个最适合我们需求且易于使用的集成解决方案,” Becker-Emhck 博士说道。“对于不了解 Kubernetes 的研究人员和机器学习工程师来说,可用性是绝对的优先事项。特别是,需要管理诸如超出随机搜索的超参数搜索和多步工作流等高级工作流。”

他指出,ClearML 提供了用户高效完成工作所需的所有工具。“此外,我们看到许多系统在 MLOps 领域昙花一现,因此我们非常赞赏该平台的成熟度及其获得的社区支持和采用。最后,我们认为其定价非常有竞争力,这有助于我们最终做出决定。”

 

解决方案

在思考实验室对 ClearML 的使用时,Becker-Ehmck 博士指出,他们使用的核心功能是 ClearML 编排实验管理,以及用于在团队内部共享工件的数据集和模型管理。值得注意的是,ClearML 最近增加了广泛的新 编排和调度功能,用于优化 AI 和 ML 的控制。

他说道,超参数搜索,特别是采用高级优化方案(Optuna),对于我们的研究工作以及将研究应用于业务案例显然至关重要。我们还广泛集成了 Hydra、Pytorch 和 Tensorboard 等其他机器学习框架,并广泛使用 ClearML Python SDK 进行自动化和自定义工作流。最后,我们使用 ClearML 进行内部机器学习库的 CI/测试。”

“拥有一个共享信息和工件的联合平台真是太好了。实验、模型、指标和数据对我们来说非常重要。现在我们可以更容易地全面自动化某些工作流,以实现持续交付或评估新方法,”他说道。“我们还喜欢我们的现有项目无需进行大量更改即可与 ClearML 协同工作。”

ClearML 与实验室 K8s 集群的集成大部分是无缝的,并得到了 ClearML 通过 Slack 提供的支持。“考虑到 ClearML 非常多方面,并且在某些方面与我们之前的解决方案截然不同,这需要一些重新学习和思维方式的转变,”他说道。“为了解决这个问题,我们为最终用户提供了一些实践教程。特别是,我们推荐了一些特定的最佳实践,而 ClearML 的示例和文档对此非常有帮助。”

结果

Becker-Ehmck 博士表示,通过采用 ClearML,实验室得以淘汰其异构的 MLOps 堆栈,从而最大限度地减少了支持快速 AI 和 ML 研究及原型开发所需的管理工作。 

此外,团队获得了他们一直在寻找的东西——清晰的用户和项目分离,并通过 RBAC 简化了合规性和数据处理指南。“我们还能够实现较高的集群利用率,最大程度地利用我们的计算基础设施,”他说道。

总的来说,实验室减少了 MLOps 堆栈所需的维护时间,并获得了以前解决方案无法提供的快速且有益的支持。“最后,我们得以实现了对我们至关重要的某些自定义功能,” Becker-Ehmck 博士总结道。 

下一步

使用我们的 免费层级服务器自行托管来开始使用 ClearML。阅读我们的文档。您可以在我们的YouTube 频道上找到更多关于 ClearML 的深度教程,我们还有一个非常活跃的 Slack 频道,随时为需要帮助的人提供支持。 

如果您需要扩展您的 ML 流水线和数据抽象,需要无与伦比的性能和控制,或者想访问超大数据集、基于角色的访问控制、SSO 和 LDAP 集成以及其他功能,请申请演示。要了解更多关于 ClearML 的信息,请访问:https://clearml.org.cn/

Facebook
Twitter
LinkedIn
滚动到顶部