使用 ClearML 的统一内存技术最大化 GPU 效率

2025 年 4 月 24 日

作者:Erez Schnaider,ClearML 技术产品营销经理

克服 AI 工作负载中的 GPU 瓶颈

将模型部署到生产环境的 AI 构建者专注于确保为用户提供高性能模型。一旦模型上线,重点就转向优化 GPU 使用以实现高效部署。虽然 GPU 机器提供最佳性能,但运行成本高昂且经常未得到充分利用。当每个模型都在单独的 GPU 实例上运行时,这个问题变得更加突出;计算需求的这种近似线性增长使得公司难以扩展其运营,增加了部署复杂性和基础设施成本。

将多个模型打包到一台机器上有时会有帮助,但 GPU 受其 VRAM 大小的限制。如果多个模型超出可用内存,它们将无法同时提供服务,因此需要额外的始终在线资源。由于推理基础设施是一个主要的成本因素,优化 GPU 使用可以决定 AI 运营是否在财务上可行。

降低成本的一种方法是仅在需要时启动实例。不幸的是,这种情况会引入冷启动惩罚,因为启动新实例可能需要几分钟,这对于大多数用例来说是不切实际的,因为用户期望 LLM 在几秒钟内做出响应。即使对于对延迟不敏感的用例,这也需要建立和维护一个编排系统,该系统知道何时执行此操作,并且还具备在空闲时将其关闭的能力。

这就是 ClearML 统一内存技术发挥作用的地方。提供模型服务时,GPU 会被占用,因此最大化其使用至关重要;如果模型没有主动使用 GPU 资源,另一个模型就可以利用它们。它通过将非活动模型卸载到系统 RAM 中来无缝扩展 GPU 的 VRAM,系统 RAM 通常比 VRAM 大 10 到 100 倍。这使得工程师和运维人员可以在同一硬件上运行更多模型,在保持性能的同时降低成本并简化部署架构。

Figure 1: Resource Provisioning Inefficiencies Without Unified Memory Technology
图 1:未采用统一内存技术的资源配置效率低下问题
Figure 4: Unified Memory Technology Benchmarking
图 2:使用 ClearML 的统一内存技术

工作原理

ClearML 的统一内存技术利用 CPU 的 RAM 作为热缓存,将缓存的模型存储在系统内存中,同时将活动模型保留在 VRAM 中以便立即访问。如果多个模型能够容纳在可用 VRAM 中,它们可以一直保留在那里,直到需要空间为止。当访问缓存的模型时,ClearML 会将其从 CPU RAM 无缝加载到 VRAM 中(换出一个非活动模型),并使用 GPU 卓越的计算能力执行它。与依赖静态或半手动配置的 vLLM 和 llama.cpp 等引擎原生方法不同,ClearML 的统一内存技术是完全动态的,根据实时使用情况自动将模型换入或换出 VRAM,无需手动设置,也无需任何配置。

这种方法通过利用 CPU 的 RAM 既提供了高推理性能(以每秒生成的 token 数衡量,通过利用 GPU 实现),又提供了更大的内存容量。

利用 ClearML 的统一内存技术可以提高 GPU 利用率,因为单个 GPU 现在可以运行多个不同的模型;同时可以降低成本,因为可以在一台机器上部署更多模型,从而帮助企业扩展其 AI 推理工作负载。

内置,无需额外配置

ClearML 的统一内存技术已集成到 ClearML 的 生成式 AI 应用引擎中,使用户只需单击即可测试和部署 LLM,而无需管理基础设施、配置部署设置或处理模型端点的网络配置。

Figure 3: ClearML’s Model Deployment
图 3:ClearML 的模型部署

当使用 ClearML 内置的 vLLM 或 llama.cpp 引擎集成来提供模型服务时,它会自动将活动模型加载到 VRAM 中。当用户需要访问缓存的模型时,它会无缝地换入 VRAM 并在 GPU 上执行。这个过程无需手动配置,也无需更改代码,并且支持 Hugging Face 提供的现成模型以及存储在 ClearML 模型仓库中的自定义模型。

基准测试

我们使用 ClearML 的 vLLM 服务引擎对 ClearML 新的统一内存技术进行了测试,评估了其对模型加载速度和响应能力的影响。

设置

  • 实例:AWS EC2 g6e.8xlarge,配备单个 NVIDIA L40s GPU
  • 服务引擎:ClearML vLLM,启用统一内存和多模型支持
  • 待测试的模型
    • QWQ 32B(8 位量化)– 约 32.5 GB
    • Llama 3 Instruct 8B(16 位浮点)– 约 15 GB
    • Llama 3 Instruct 8B(8 位量化)– 约 8 GB

基准测试目标

目标是评估不同场景下的首个 Token 生成时间 (TTFT)

  1. 每实例单个模型 – 单个“热”模型在内存中已激活时能多快响应。
  2. ClearML 统一内存技术 – 使用 ClearML 的统一内存技术在 CPU RAM 中缓存的模型之间切换需要多长时间。
  3. 引擎重新加载 – 从磁盘加载模型时引入的延迟,模拟动态启动或关闭服务引擎时的冷启动。

首个 Token 生成时间以秒为单位测量。

单个模型ClearML 统一内存技术
引擎重新加载实例冷启动
QWQ 32b_q81.49.0344280
Llama3 8b_q80.562.4227.5263
Llama3 8b_16f0.513.9734270
Figure 4: Unified Memory Technology Benchmarking
图 4:统一内存技术基准测试

结果

  • 统一内存实现了比基于磁盘加载快 11 倍的 TTFT。
  • 正如预期的那样,与模型驻留在 VRAM 中相比,CPU 交换会带来额外的延迟开销。
  • 与启动新的 EC2 GPU 实例(可能需要几十秒到几分钟)相比,统一内存提供了超过 100 倍的响应能力提升。

这项技术对于许多不需要严格实时延迟的用例来说是有效的,并且能够大幅节省成本。

总结

ClearML 通过将 GPU 内存扩展到 CPU 的 RAM 上,帮助 AI 构建者最大化其基础设施、提高利用率并降低推理成本,同时保持可靠、高性能的 AI 部署。借助 ClearML 的统一内存技术,用户可以在每个 GPU 实例上运行更多模型,推理延迟最高可提升 100 倍

有兴趣了解 ClearML 如何提升您的 AI 项目吗?立即预约演示,了解它如何加速您的开发并提高效率。

Facebook
Twitter
LinkedIn
滚动至顶部