随着机器学习和 MLOps(机器学习运营)在组织中得到越来越广泛的应用,及时了解该领域的最新进展和发展至关重要。
鉴于此,ClearML 荣幸地发布我们的最新研究报告:“2023 年 MLOps:未来何在?”这份全面研究深入探讨了该领域的当前状况,审视了关键趋势、机遇和挑战,并分析了当前经济环境对机器学习和 MLOps 实施的潜在影响。
该报告旨在服务于不同的受众,为经验丰富的机器学习专家和该领域的新手提供有价值的见解。
方法
该研究通过对 200 位美国机器学习决策者进行问卷调查,提供了广泛的行业视角。这份报告是组织在快速发展的数据和技术世界中保持领先地位的必备工具。
运营机器学习方面的挑战削弱了机遇
在被问及利用机器学习创造商业价值所面临的困难时,绝大多数受访者(86%)表示他们的组织在这方面存在困难。对于近三分之一的受访者(29%)来说,挑战尤为突出,他们表示在通过部署和扩展机器学习管道和项目从机器学习投资中创造价值方面“非常困难”。
同样,大多数受访者(71%)承认,由于难以大规模实施机器学习,他们的公司未能产生收入或创造价值。近半数受访者(45%)认为这些挑战相当严重,许多人形容它们“严重”或“非常严重”。
总结
机器学习有潜力为各行各业的企业带来巨大价值。然而,实现这一价值取决于有效地运营机器学习模型,这对许多组织来说正变得越来越具有挑战性。这就是 MLOps 的用武之地,它是一种旨在解决机器学习运营挑战并帮助组织更好地利用其优势的方法。
以下是 MLOps 帮助组织克服这些挑战的五种方式:
- 改进协作:MLOps 实践促进数据科学家、工程师和其他利益相关者在整个机器学习模型开发和部署过程中的协作,确保每个人都朝着共同目标努力,并最大程度地减少信息孤岛。
- 增强项目管理:MLOps 提供了一个项目管理框架,帮助团队更好地规划、执行和跟踪机器学习项目,降低延误和其他运营问题的风险。
- 精简运营:MLOps 有助于自动化和精简机器学习模型的运营流程,减少将模型从开发阶段转移到部署阶段所需的时间和精力。
- 更好的监控和维护:MLOps 提供工具和最佳实践,用于监控和维护生产中的机器学习模型,使组织能够快速识别和解决可能影响性能的问题。
- 提高可扩展性:MLOps 使组织能够扩展其机器学习模型和运营,以满足不断增长的业务需求,同时不影响性能或安全性。
MLOps 被视为解决组织在机器学习方面面临的运营挑战的关键方法,随着越来越多的企业致力于利用机器学习的价值,其采用率将继续增长。
在裁员紧缩下,数据科学团队被迫少花钱多办事
鉴于最近的经济不确定性以及由此导致的主要科技公司(如 Twitter、微软、Alphabet、Meta、亚马逊等)的裁员和招聘冻结,缺乏人才被认为是组织大规模运营机器学习(ML)的一个重大挑战,这也许不足为奇。近三分之一(29%)的受访者认为这是他们面临的最大挑战。
总结
大规模运营机器学习并通过它创造价值长期以来一直是许多组织面临的挑战,这主要归因于该领域熟练人才的短缺。最近的经济衰退以及由此导致的行业裁员加剧了这一问题,因为组织现在发现自己资源更少,交付结果的压力更大。
这促使公司探索替代解决方案,例如自动化和 MLOps 工具,以解决运营挑战并弥合人才差距。MLOps 是一种方法,它帮助组织自动化和精简机器学习模型的运营流程,减少将模型从开发阶段转移到部署阶段所需的时间和精力。此外,它还提供了工具和最佳实践,用于监控和维护生产中的机器学习模型,使组织能够快速识别和解决可能影响性能的问题。
在这种组织面临人才短缺的情况下,采用 MLOps 以确保他们仍能大规模运营机器学习、推动价值并保持竞争力变得至关重要。这种方法可以帮助组织在资源有限的情况下做更多事情,并克服人才短缺和大规模运营机器学习的挑战。
研究结果还强调了有效的人才管理和保留策略的重要性,以及组织需要投资于培训和发展计划,以确保他们拥有成功运营机器学习所需的技能和专业知识。此外,这可能还表明组织需要探索替代解决方案,例如外包或利用托管服务来运营机器学习。
MLOps 已成为主流
MLOps 旨在优化和精简大规模开发、部署和管理机器学习模型的过程。它涵盖了广泛的最佳实践、工具和技术,通过持续协调和自动化各种机器学习工作流程,使组织能够将其机器学习计划商业化。近年来,这种方法获得了显著的关注,因为组织寻求利用机器学习的优势,同时解决它带来的运营挑战。
根据我们自己的研究,MLOps 在公司和企业中已获得广泛采用。研究发现,85%的受访者在 2022 年有专门的 MLOps 预算,而另有 14%的受访者没有预算,但预计在 2023 年为 MLOps 分配资金。这表明 MLOps 在行业中的重要性日益增加,因为越来越多的组织认识到需要优化和自动化其机器学习工作流程以推动价值并保持竞争力。
总结
随着组织在机器学习上投入数十亿美元,拥有一个有效的方法来大规模运营和管理机器学习模型至关重要。MLOps 涵盖了从实验、开发、部署到机器学习模型的管理、可观察性和治理等各个方面。通过采用 MLOps,组织可以提高模型的性能,加快运营机器学习的速度,实现商业价值,确保不断增长的机器学习投资获得投资回报。
然而,采用新的 MLOps 平台的过程可能复杂且充满挑战。为了帮助组织应对这一过程,在投资和采用新的 MLOps 平台时,考虑以下 5 个问题至关重要:
- 平台如何与现有工具和技术集成?
- 平台如何处理数据隐私、安全和合规性?
- 平台提供商提供什么样的支持和资源?
- 平台如何支持持续集成和持续交付?
- 平台如何处理版本控制和实验管理?
通过考虑这些问题,组织可以确保选择一个满足其特定需求和要求的 MLOps 平台,并且该平台可以帮助他们更有效率地自动化和协调其机器学习工作流程。自动化是在具有挑战性的市场条件下,资源有限时获得和保持规模和竞争优势的关键。
2023 年 MLOps 投资将激增
2023 年,大多数受访组织计划显著增加其在 MLOps 方面的投资。具体而言,42%的受访者表示其组织计划将支出增加 11-25%,37%增加 26-50%,16%增加 51-75%,5%增加 76-100%,只有 2%增加 10%或更少。这表明 MLOps 领域的投资将显著增加的明确趋势。
此外,绝大多数受访者(98%)计划将投资增加至少 11%,其中 58%的受访者计划将支出增加 25%以上。这些数字表明了对 MLOps 的坚定承诺以及对其推动业务增长潜力的信念。
值得一提的是,这些数字显著高于 Gartner 预测的当年整体 IT 相关支出增长 5.1%,这突显了组织对 MLOps 的日益重视和价值,以及它在未来蕴含的潜力。
总结
机器学习投资对于寻求优化资源配置并确保投资获得积极回报的公司至关重要。MLOps,即将 DevOps 原则应用于机器学习的实践,可以通过以下几种方式支持更好地衡量机器学习:
- 从一开始就为机器学习项目定义清晰且可衡量的目标:MLOps 可以帮助公司为其机器学习项目建立清晰且可衡量的目标,这将作为评估项目成功的基准。
- 定期监控和跟踪针对这些目标的进展:MLOps 可以支持定期监控和跟踪针对这些目标的进展,使公司能够快速识别项目可能不足的任何领域,并进行相应的调整。
- 建立一个流程来收集和分析机器学习模型性能数据:MLOps 可以帮助公司建立一个流程来收集和分析其机器学习模型的性能数据,这可以提供对模型性能的见解,并为模型的未来迭代提供信息。
- 识别和解决机器学习工作流程中的瓶颈或效率低下:MLOps 可以帮助公司识别和解决机器学习工作流程中的瓶颈或效率低下,这可以提高整个机器学习流程的效率并节省成本。
- 持续测试和迭代机器学习模型,以随着时间推移提高性能:MLOps 可以支持对机器学习模型的持续测试和迭代,这有助于随着时间推移提高模型性能,并确保模型在不断变化的业务条件下保持有效。
总而言之,MLOps 可以帮助公司更好地衡量其机器学习投资的结果和关键绩效指标(KPI),从而在推动创新的同时就资源分配做出明智的决策并确保积极回报。
—
随着组织不断寻求改善运营和决策流程的方法,机器学习和 MLOps 在未来一年将继续成为重要的重点领域。
本研究考察了这些技术的最新发展及其如何推动业务价值,以及组织在寻求实施和运营机器学习时面临的主要挑战和机遇。虽然运营机器学习对许多组织来说仍然是一个挑战,但 MLOps 的广泛采用以及新工具和技术的不断发展为克服这些障碍并充分发挥机器学习的潜力带来了希望。
随着该领域的不断发展,组织及时了解最新发展和最佳实践将非常重要,以确保他们能够有效利用这些技术在未来一年推动业务价值。