在 OpenShift 上构建 MLOps 基础设施 – 嘉宾博文

2022 年 1 月 6 日

原文发布于 Nicolas Jomeau – 经作者同意转载

大多数数据科学项目无法通过 PoC 阶段，因此永远无法产生任何商业价值。Gartner 在 2019 年估计，“到 2022 年，只有 20% 的分析洞察能够带来商业成果”。造成这种情况的主要原因无疑是数据科学家通常缺乏关于如何将他们的解决方案部署到生产环境、如何将其与现有系统和工作流程集成以及如何操作和维护它们的清晰愿景。这就是 MLOps 的用武之地，它被认为是解决机器学习解决方案工业化相关所有问题的答案。

通过将 DevOps 原则与常见的数据科学工作相结合，MLOps 旨在提高机器学习生命周期的自动化水平，以改善实验阶段的复现性和透明度，实现 ML 模型在生产环境中的可靠高效部署，并使其可观测。虽然存在许多集成的 ML 平台，例如Dataiku、DataRobot 或Azure MLOps，我在 ELCA 的实习专注于探索各种开源解决方案来解决这个问题。

Photo by Stephen Dawson on Unsplash — 图片来源：Stephen Dawson，来自 Unsplash

根据 ThoughtWorks 的研究，一个好的 MLOps 基础设施应具备多种功能：

快速实验周期：数据科学家可以快速尝试新的数据处理技术、模型架构或参数，并将结果（模型产物和指标）记录到一处，以便轻松进行实验之间的基准测试。
持续集成：自动化管道确保 ML 代码通过单元测试，并且训练的模型性能达到最低阈值，同时遵守产品接口，以避免重大变更。
持续部署：只需一次点击（如果不是零次），即可打包、测试并立即将模型部署到生产环境。如果是对先前部署模型的更新，则对用户是透明的，无需停机即可完成更新。
监控：一旦部署，模型性能和数据漂移指标会持续监控，以便及早发现异常并自动发出警报，如果模型或基础设施需要更新。
可伸缩性：基础设施根据模型的负载进行伸缩，以避免花费过多并浪费昂贵的计算资源，或花费过少导致性能下降的风险。

The common MLOps workflow — schema by author — 常见的 MLOps 工作流程 — 作者绘制的示意图

基础设施

在部署满足上述功能的工具之前，必须选择一个平台来支持它们。我们旨在将整个项目部署在 ELCA 的基础设施上，同时支持资源共享和伸缩，因此 ELCA 的 OpenShift（RedHat 打包的 Kubernetes 分发版）成为这项工作的合适工具。

使用 OpenShift（或其他基于 Kubernetes 的容器化解决方案）本身就允许我们通过控制部署的服务器数量（通过自动伸缩 Pods）来覆盖可伸缩性，并通过使用滚动更新确保部署新模型时不停机来覆盖部分持续部署功能。

为了满足我们保存数据集和训练模型的存储需求，我们使用 MinIO S3 对象存储服务器。MinIO 与 Amazon S3 API 完全兼容，因此可以轻松替换为其他托管解决方案（Google GCP、Amazon S3、Azure 等），或者本身部署在其他云提供商上。

配置好 MLOps 基础设施后，我们可以开始逐个添加我们解决方案的构建块，以处理数据、训练模型、部署和更新模型，并最终监控部署。

工具

特征工程、机器学习和实验跟踪

ClearML Platform — screenshot by the author — ClearML 平台 — 作者截屏

Monitoring of data and model drift on Grafana — screenshot by the author — ClearML 平台 — 作者截屏