
客户概况

所有手术,无论多么漫长或复杂,都由少数几个关键时刻决定。这些时刻中的关键、瞬间决定着手术的成败。全面了解患者和手术过程是预防或导致并发症的关键。Theator 这家创新型初创公司的团队,正在利用计算机视觉和机器学习技术推出“手术智能”(Surgical Intelligence)平台,将术中的关键时刻呈现在外科医生面前,以便他们不断精进技艺。借助手术智能,外科医生拥有了所需的技术优势,能够将宝贵的数据丰富时刻转化为更明智的决策、更精湛的技能和更好的手术效果。
挑战
硬件自动化与可见性
处于计算机视觉、手术和人工智能的交叉领域,Theator 的数据科学团队需要大量的计算资源来构建、测试和优化模型,以涵盖他们旨在改进的每种手术类型的每种排列组合。正如人工智能开发的常态一样,Theator 的数据科学家首先花费大量时间创建初始实验,然后将模型应用于海量、复杂的视觉数据集,并让它们运行时长,同时他们则在处理该实验的修改版本。
经过仔细分析,Theator 认为根据他们的需求,购买大量昂贵的 GPU 设备并不划算,特别是考虑到除了高峰期之外,许多设备会处于闲置状态。“与其为软件开发管理自己的硬件,”Theator 的首席技术官兼联合创始人 Dotan Asselman 解释说,“我们使用云计算,这样就可以根据需要启动和关闭机器。当然,缺点在于如果我们不仔细监控哪些程序何时运行,时间和存储以及带宽相关的成本会非常巨大。”对于管理层来说,为此专门分配运维人员似乎是浪费。然而,他们知道需要一种解决方案来赋能他们的数据科学团队,使其能够控制并简化流程,并只在需要时才让机器运行。当然,问题在于这样做所需的时间和带来的干扰。
解决方案
当他们了解到 ClearML 后,团队相信它能解决他们的问题。ClearML 是一个开源平台,它通过一系列工具帮助数据科学和数据工程团队优化其 AI 开发,在四个核心领域带来即时改进:生产力、协作、资源利用率和数据管理。在不到一周的时间里,Theator 团队配置了 ClearML 的自动化和编排模块,并将其完全集成到他们的环境中。现在,ClearML 基于 ClearML Agent(ClearML 的一个组件)触发的实际需求,以节省成本的效率自动启动和关闭机器。
ClearML 提供了一个界面来监控 worker 和队列,这使得它一方面可以按需迁移实验,另一方面又可以实际执行实验……所有这一切都无需开发人员设置机器、安装软件包和重写代码。由于这些任务是自动处理的;开发人员不再需要首先访问指定的机器并检查其“生命体征”,以确定它是否能够管理另一个实验。
“对我们来说一个主要的益处,”Asselman 解释说,“是 ClearML-agent 包含了它自己的机器状态报告引擎,用于监控 GPU、CPU、VRAM、RAM 分配和网络 IO。因此,我们现在可以追踪特定代码在给定实验中对这些资源的任何影响。这是我们经常需要发现的一个关键数据点;当训练崩溃时,我们需要知道发生的原因,这样才能恢复工作。而且如果我的代码没有最大化 GPU 的容量,我就是在浪费时间和金钱。”
通过其他方式实现这种透明度,Theator 不得不要么自己构建解决方案,要么购买并管理外部解决方案。“感觉 ClearML 提供了一系列我们都知道需要但却无法或不愿自己创建的必备自动化流程捷径,”Asselman 说。
成果
在其当前工作负载下,每年约为 13 万至 17 万美元。随着其 AI 工作负载的增长,节省的成本也将随之增加。
除了这些节省的成本外,Asselmann 还赞赏由于简化的可复现性而带来的生产力显著提升。“对于每个实验,”他报告说,“添加 ClearML 代码片段使过程变得‘解放双手’,因为开发人员不再需要记录代码和相关软件包中的每个参数,然后将这些参数与数据一起迁移到新机器上,之后才能运行实验。而另一种选择,”他解释说,“意味着在没有精确复制过程的情况下运行‘相当相似’的实验——这不仅远非最佳实践,在一个高度监管的行业中更是不可取,因为 AI 结果可能意味着成功与悲剧之间的区别。这些额外的节省可能与 MLOps 的直接节省相当,甚至更多。”
由于 ClearML 的部署无关性以及其能够在本地、云端或任何组合环境中运行的能力,Asselmann 相信随着公司的发展并可能投资于自己的 DGX Pods,ClearML 将与他们无缝地共同成长,而无需改变其工作流程。
“如果非要总结一下,”Asselman 总结道,“我不得不说,ClearML 并没有强加新的流程或改变我们原有的工作流程,它只是感觉非常自然。它在后台安静而直观地工作,我们可以专注于赋能外科医生,而不是纠结于实现目标的步骤。”