
客户概况

Trigo 是一家计算机视觉初创公司,致力于重塑零售体验。该公司利用世界一流的 AI 和算法专家,其先进的零售自动化平台能够以极高的准确率识别顾客购物商品,从而创造出完全无缝的结账流程。
Trigo 的技术简化了零售运营,防止了商品盗窃,提供了宝贵的零售洞察,并在零售环境中为客户互动提供了新的机会。
面临的挑战
他们希望避免痛苦的集成成本(包括初始和持续成本),以及处理一系列复杂系统的管理开销。
像软件工程一样管理 AI / DL 生命周期
要构建这样一个多层级系统,开发和完善这些重叠算法所需的 AI 实验量是巨大的;即使单个模块的任何错误“微决策”,都可能导致不正确的分析和由此产生的决策。Trigo 部署了多个团队来创建模块,以处理这些任务中的每一项。团队负责人从一开始就认识到克服两个众所周知的挑战所需的复杂性
首先,这种积极广泛的实验水平需要流畅、简化的从研究到生产的流程 ‒ 数据科学家进行的建模工作要传递给工程团队进行应用实现。
其次,他们的团队非常熟悉传统软件开发工作流中最重要的动态,其中许多也适用于 AI 和深度学习:版本控制、协作、DevOps 和 CI/CD。They were de-work of the data scientists being passed on for application implementation by the engineering team.
其次,他们的团队非常熟悉传统软件开发工作流中最重要的动态,其中许多也适用于 AI 和深度学习:版本控制、协作、DevOps 和 CI/CD。他们决心至少以他们习惯的效率水平来实施这些流程,不打折扣。
团队认识到,虽然可能无法在单一平台中推动 AI 开发的方方面面,但他们希望选择并使用尽可能少的最佳解决方案。他们希望避免痛苦的集成成本(包括初始和持续成本),以及处理一系列复杂系统的管理开销。
解决方案
在研究和测试了大量平台和应用程序后,他们很快选择了流行的开源 PyTorch 作为其核心机器学习框架。
然后他们开始探索实验管理和 ML 管道构建与自动化的选项:模型克隆和迁移、协作、文档和资源监控。在此阶段的搜索和评估多个工具和解决方案后,他们发现了 ClearML 并对其产生了兴趣。ClearML 是一个开源平台,可为全球成千上万的数据科学团队自动化和简化机器学习解决方案的开发和管理。
他们很高兴地发现,ClearML 只需添加一小段额外的代码即可立即集成到他们的代码中。使用 ClearML 的自动化和编排功能,他们无需手动创建新的容器来运行代码——ClearML 会为他们完成。这项功能让研究团队松了一口气,因为他们不再需要每天多次发送请求并等待 DevOps 更新带有新软件包的容器。
结果
Trigo 成功地实现了他们最初的目标。首先,他们赋予了数据科学家自行管理整个 ML 工作流的能力,而无需管理复杂的工具集。他们使用自己的机器结合 PyTorch 和 Tensorboard,现在可以确认实验在本地顺利运行,然后通过 ClearML Web UI,只需几次点击即可轻松克隆实验,无需重新打包代码库。剩下的就是通过简单的 Web(或 API)ClearML 编排界面安排在他们众多本地 GPU 之一上执行。这种简化的工作流为每位研究科学家节省了大量的工作时间。
其次,现在通过 ClearML,他们拥有了一套全面的功能集合,使他们的 ML 流程与他们在传统软件开发经验中熟悉的流程一样高效:用于审查的文档和版本控制、溯源和根本原因分析;用于分享和基于彼此成功模型进行构建的协作;以及用于在整个过程中实现快速、无延迟迭代的自主管理 DevOps 和 CI/CD/CT。
现在配备了正确的开发工具,Trigo 团队利用 ClearML 功能进一步简化了他们的实验流程——包括将单个模型(用于复杂系统的某个模块)合并到主分支的挑战,而不知道它是否以及如何可能降低性能。在这种特定情况下,他们的 CI 会为每个 pull request 在盲测数据集上启动一个测试实验——性能下降意味着模型的拒绝。使用 ClearML,代码永远不会进入 git 仓库——它只作为模型文件的链接存在,并且一旦证明能提升整体性能,ClearML 就可以根据需要上传模型。
这些是 Trigo 使用 PyTorch、Tensorboard、ClearML 以及他们自己的独创性解决的挑战。随着他们继续转型并提升我们的购物效率,他们的团队也在使用 AI 工具做同样的事情——将自身的效率和产出提升到了新的水平。