开源共享GPU,人人可用,现已通过 ClearML 提供

2024 年 3 月 19 日

如果您一直在关注我们的新闻,您会知道我们刚刚宣布了为开源用户提供免费的共享 GPU 功能,为 NVIDIA GPU 启用多租户,并允许用户优化其 GPU 利用率以支持多种 AI 工作负载,作为我们开源和免费套餐的一部分。通过这次最新的开源发布,您现在可以通过分区 GPU 来优化组织的计算利用率,运行更高效的 HPC 和 AI 工作负载,并从当前的 AI 基础设施和 GPU 投资中获得更好的 ROI(投资回报)。

全球企业级 AI 项目因传统 AI 基础设施而受到阻碍和停滞,这些基础设施无法充分支持深度学习和生成式 AI 业务用例所需的现代 GPU 加速计算和性能密集型 AI 及 HPC 工作负载。ClearML 致力于在计算、基础设施和 AI 的交汇处创造创新解决方案,帮助我们的开源社区和全球客户无缝扩展 AI 和 ML 项目,同时在任何规模下优化 GPU 利用率并克服复杂的挑战。ClearML 最新开源版本的发布标志着计算资源优化和利用民主化的重要一步,为 AI 开发的效率、成本和可访问性树立了新标准。

ClearML 的首席执行官兼联合创始人 Moses Guttmann 今天在 NVIDIA GTC 大会上宣布了我们最新的突破,发布了这项开源解决方案,该方案在市面上最广泛的 NVIDIA GPU 上解锁了共享 GPU 的使用能力。 

“ClearML 这一突破性的举措旨在让高端计算能力更加高效,并普惠大众。这证明了我们致力于推动社区内的创新,以便能够快速、大规模地创建卓越的 AI 技术,”Guttmann 说。“我们的目标是赋予所有组织,包括资源有限的组织和研究人员,充分利用 ClearML 开源共享 GPU 产品的潜力。我们期待看到每个人最大限度地利用他们现有的计算能力投资和资源,以极小的成本,用他们已有的资源来突破他们所能达到的极限。”

ClearML Fractional GPU Utilization
图 1:ClearML 共享 GPU 利用率

机器学习和 AI 基础设施的领导者可以利用 NVIDIA 的时间切片技术,安全地将非 MIG 的 NVIDIA 显卡 GTX™、RTX™ 和数据中心级显卡,以及支持 MIG 的 GPU 分割成更小的共享 GPU,以支持多种 AI(人工智能)和 HPC(高性能计算)工作负载,而无需担心失败的风险。这意味着利用 NVIDIA 先进的 GPU 技术将单个 GPU 的处理能力和资源划分成几个更小、独立的单元。这个过程允许不同的任务或应用程序,特别是那些需要 AI 或 HPC 能力的任务,在同一个物理 GPU 硬件上并发运行。以下是具体说明:

NVIDIA 的时间切片技术:这是一种先进的机制,使 GPU 能够以时间共享的方式在其不同任务之间分配资源。时间切片确保每个任务在指定的时间范围内获得 GPU 计算能力、内存和其他资源的公平份额,这可以提高整体利用率和效率。

分区为共享 GPU:该过程将单个强大的 GPU 划分为多个虚拟或共享 GPU。每个共享 GPU 的运行就像一个独立的、更小的 GPU,允许多个应用程序同时运行,互不干扰,也不会过度占用内存。

支持多种工作负载:通过分区 GPU,可以同时运行各种 AI 和 HPC 应用程序。AI 工作负载可能包括机器学习模型训练和推理,而 HPC 工作负载可能涉及复杂的科学模拟、数据分析或其他计算密集型任务。

安全与风险缓解:使用 NVIDIA 技术进行 GPU 分区的主要优势之一是能够保持稳定性并降低可能中断关键进程的故障风险。我们的技术通过驱动程序级别的内存防护机制,确保一个分区 GPU 的需求不会对其他分区 GPU 的性能或可靠性产生不利影响;每个容器都有自己的内存隔离和执行环境,从而确保整个系统的最大稳定性。

与 NVIDIA GPU 的兼容性:ClearML 的开源功能兼容多种 NVIDIA GPU,包括 GTX™(消费级游戏 GPU)、RTX™(高级游戏和专业图形 GPU)、非 MIG GPU(不支持多实例 GPU 技术进行更精细分区的 GPU),以及数据中心级的支持 MIG 的 GPU(专为服务器环境设计的高性能 GPU)。

总而言之,利用 NVIDIA 的时间切片技术结合 ClearML 的共享 GPU 功能进行 GPU 分区,使组织和个人能够在通过内存防护机制保持系统稳定性的同时,最大限度地提高计算效率,从而充分利用 GPU 投资。它为各种 AI 和 HPC 应用程序提供了更高效的处理能力,提高了资源利用率,并通过最大限度地降低计算故障风险来确保关键任务的可靠运行。这种方法在对高性能、可靠性和高效资源管理要求极高的环境中尤其有利。

我们为何创建这项功能:AI 的新时代对 GPU 提出了更高要求
AI 和机器学习任务能够在标准 GPU 设置上顺利运行的日子已经一去不复返了。如今,一个组织内部通常有多个 AI、机器学习和数据科学团队需要访问计算资源,而生成式 AI 的出现改变了游戏规则,它需要显著更多的计算能力。这种新型 AI 依赖于能够以最小延迟即时交付结果的专用 AI 基础设施。

面对对更高计算能力的需求,企业发现自己站在了十字路口。在不扩展现有基础设施的情况下提升计算能力的理想途径仍然难以捉摸。这种困境使许多企业面临艰难的选择:要么投资额外的计算资源,要么延迟项目以在当前容量限制内进行管理。这两个选择都有其缺点,包括成本增加,以及由于项目周转时间变慢可能导致的竞争优势丧失和上市时间延迟。

ClearML 自己的研究证实了这一点:在最近一项关于《2024 年规模化 AI 基础设施状况》的调查中,96% 的受访者表示他们计划扩展其 AI 计算基础设施,这突显了资源的紧张。67% 的受访者表示他们通过队列管理和任务调度来管理 GPU 使用,而只有 39% 的受访者使用了多实例 GPU。

因此,现在的压力在于寻找一种方法,能从现有配置中榨取更多性能。如果没有一种可行的解决方案来高效提升计算能力,组织就有落后的风险。企业必须谨慎应对,平衡技术进步的需求与基础设施限制和预算约束的实际情况。

好消息是,随着 ClearML 新的开源共享 GPU 的普遍可用,无数各种规模的组织将能够从他们当前的计算配置中获得更多收益。我们通过开放支持多任务分区的功能,提升了能力,这些分区保证了安全私密的计算体验。每个分区都配备了自己专用的内存,为全面一致且可靠的性能铺平了道路。

ClearML 采用了驱动程序级别的内存防护机制,这项策略旨在确保不同任务能够彼此无缝并行运行,互不干扰。这个先进的监控系统是平台在同时处理多个任务时保持高性能的支柱。

通过最新的更新,ClearML 在计算隐私和效率方面树立了新标准。引入带有专用内存的安全分区意味着用户可以享受无忧的计算环境,性能永不打折。ClearML 确保所有任务都能完美执行,没有任何相互影响的风险。这种级别的监督对于维护平台的完整性至关重要——更不用说用户满意度了。

立即试用
要了解更多关于 ClearML 免费开源 GPU 功能的信息,请访问我们的 GitHub 仓库。通过使用我们的免费套餐服务器自行托管来开始使用 ClearML。

背景

什么是 GPU 分区及其重要性?
GPU 分区是一种技术,它允许将单个图形处理单元 (GPU) 的资源划分为更小、独立的区域,并为它们分配一个专用的 GPU “块”。这使得多个应用程序或容器可以共享一个物理 GPU,每个应用程序或容器都可以访问 GPU 的一部分资源,例如计算单元、内存等。

GPU 分区的目的是提高资源利用率和效率,特别是在多个任务或用户需要访问 GPU 加速但不要求专用 GPU 的全部能力的环境中。通过对 GPU 进行分区,管理员可以优化硬件使用,降低成本,并确保根据不同应用程序或用户的需求分配资源。

GPU 分区在云计算、数据中心和服务器环境中尤为重要,这些环境中虚拟化很常见。它支持虚拟桌面基础设施 (VDI)、游戏、专业图形应用程序和机器学习工作负载等场景,从而能够更灵活、高效地利用 GPU 资源。

GPU 分区的主要优势包括:

  • 提高资源利用率:通过将 GPU 划分为更小的单元,确保 GPU 能力得到充分利用,减少空闲时间。
  • 成本效益:组织可以通过最大化利用现有 GPU 而非购买额外设备来节省硬件成本。
  • 灵活性和可扩展性:分区允许根据不断变化的工作负载需求动态分配和重新分配 GPU 资源。
  • 隔离性:每个分区可以独立运行,确保一个分区中的活动不会干扰另一个分区中的活动,这对于安全和性能一致性至关重要。

开放共享 GPU 具有额外优势
开放 GPU 分区之所以重要,有几个原因,它通过促进创新、包容性和成本效益,为个人、组织和更广泛的技术社区带来了益处。以下是开源 GPU 分区重要的几个关键原因:”

  • 可访问性和包容性:开放 GPU 分区解决方案使先进的 GPU 技术更容易被更广泛的受众获取,包括可能没有预算购买昂贵专有解决方案的小型组织、研究人员和爱好者。这种包容性促进了用户和开发者的多元化社区,有助于产生更多创新和多样化的用例。
  • 透明度和信任:开源项目以其透明性为特点,允许任何人检查、修改和增强源代码。这种透明性有助于在用户之间建立信任,因为他们可以验证分区中使用的资源分配算法的安全性、效率和公平性。
  • 定制化和灵活性:通过访问源代码,组织和个人可以定制 GPU 分区软件,以满足其特定需求,无论是针对特定类型的工作负载进行优化、提高性能还是增强安全功能。
  • 成本效益:开源解决方案可以显著降低与 GPU 虚拟化和分区相关的成本。组织可以避免专有解决方案的许可费用,并且可以贡献或受益于社区驱动的增强功能,从而减少昂贵的内部开发需求。
  • 协作和社区支持:开源项目得益于全球社区的集体专业知识和贡献。这种协作环境加速了创新,因为来自不同背景的开发者贡献了改进、功能和修复。用户还可以从社区获得支持和建议,从而提高他们有效部署和管理 GPU 分区的能力。
  • 教育和研究:开放 GPU 分区工具是宝贵的教育和研究资源,允许学生、教育工作者和研究人员在没有商业限制的情况下学习、实验和开发先进的计算解决方案。这种开放性支持知识的进步和下一代计算机科学家和工程师的培养。
  • 推动标准和互操作性:开源项目通常在建立行业标准和促进不同系统和技术之间的互操作性方面发挥关键作用。通过为 GPU 分区提供一个通用框架,开源项目有助于确保跨各种平台和环境的兼容性和易于集成。

总的来说,开放 GPU 分区体现了开放创新、协作和技术民主化的原则,使人们能够更公平地获得先进的 GPU 能力,并鼓励在计算领域开发具有创意和高效的解决方案。

 

 

Facebook
Twitter
LinkedIn
回到顶部