随着计算能力日益增强,事实是:大多数 AI 工作负载并不需要单个 GPU 的全部容量。模型开发生命周期所需的计算能力呈正态钟形曲线——数据处理和摄取需要一部分计算,模型训练和微调需要最大的算力,而持续推理的需求则逐步降低。
尽管如此,组织仍会继续对计算资源进行大量投资,因为他们无法充分优化现有资源。拆分和切分 GPU 是解决如何从每个芯片获得更多收益的一种方法(如果他们知道如何操作的话)。通过利用分数 GPU 的力量,AI 基础设施经理可以预先确定团队的划分大小,并要求利益相关者使用最适合其工作规模的切片。通过正确的设置和流程,团队可以将工作负载吞吐量提高多达 10 倍,显着加快模型开发时间线,并缩短投入生产的时间。但是,虽然分数 GPU 对于拥有处于不同开发或生产阶段模型的团队来说是一个极好的解决方案,但在管理使用同一共享基础设施的多个团队时,您需要一种更宏观的控制机制。
对于控制大型、规模化基础设施中多个业务部门或部门的计算访问,答案是多租户。
在计算领域,多租户是一种软件架构,其中单个应用程序实例(或在本例中,计算资源)为多个独立的 用户组提供服务,这些用户组通常被称为租户。它提供了一种在这些用户之间高效共享资源的方式。
计算中的多租户
概念上,计算中的多租户与房地产中的多租户非常相似。对于拥有独立居住空间和共享服务(例如邮件投递)的物业,每个独立单元(或租户)都有自己的私人空间,与其他单元隔离并受保护。管理建筑物或基础设施的服务可以为所有租户或单独进行。
对于计算,多租户遵循相同的原则。尽管共享相同的资源,租户却是相互隔离的,并且只能访问分配给他们的资源。随着越来越多的团队、部门和业务单元开始尝试生成式 AI,对计算能力的需求不断增加,并且变得越来越难以满足,特别是如果计算资源是集中管理的。分配资源、控制用户访问以及启用不会与其他用户工作负载冲突的安全并行工作负载,是实施多租户的关键组成部分。
什么是安全的多租户?
由于实施多租户时考虑了效率和安全性,因此完整的网络隔离是一个至关重要的方面。每个租户都应在其自身的独立网络中运行,免受其他租户的潜在威胁。通过将每个租户隔离在自己的网络上,组织可以保证最高级别的隐私和数据完整性,使租户能够充分利用其分配的 GPU 资源,而无需担心未经授权的访问或干扰。通过完整的网络隔离,多租户 GPU 集群提供了无与伦比的控制和保护级别,让租户和基础设施所有者都安心无忧。
多租户的优势
除了满足更多 AI 利益相关者的扩展能力之外,多租户结构还允许基础设施负责人通过动态资源管理更高效地运营。如果没有多租户,IT 团队必须诉诸于使用静态、硬性规定来分配资源,这更新起来很麻烦,而且有服务不足 AI 利益相关者的风险。这效率极低。在这种情况下,即使其他团队有闲置的分配资源,一些团队也会坐等计算资源。多租户动态地解决了这些问题并确保了:
- 成本效益和透明度 – 投资于云计算,无论是本地部署还是云端,都是 IT 预算中的一个重要项目。在更多用户之间共享现有计算资源是无需额外投资即可充分利用资源的简单方法。粒度化的使用级别报告还可以显示每个租户如何消耗计算、数据和微服务,使组织更容易对其 AI 利益相关者进行内部计费(费用分摊)。
- 更高的利用率 – 尽管大多数组织认为他们需要更多的计算算力,在最近对 1,000 名 IT 领导者的调查中,68% 的受访者估计 GPU 利用率在高峰期低于 70%(甚至低于 50%!)。想想损失的更多 AI 开发机会,更不用说低效的投资回报率了。为了最大限度地提高这些 GPU 的利用率,基础设施工程师除了多租户之外,还应该分层加入分数 GPU 功能,以便根据 AI 工作负载的大小调整计算能力。通过精心设置的划分,可以在同一芯片上执行数据预处理或推理等“较小任务”。
- 数据安全 – 多租户确保租户之间没有数据泄露。没有人希望研发的模型被销售团队看到(当然,销售团队除外)。多租户是另一种通过为隔离的计算和数据存储连接创建隔离区来保护数据的机制。
- 可扩展性 – 当您的基础设施已设置为共享时,可以轻松地转移资源,因为您可以看到哪些团队充分使用了他们的计算分配,哪些团队没有。基础设施的弹性使得“堆叠”变得简单。添加更多集群或额外的云提供商以整体增加计算能力是一项更容易的任务,并且不会影响用户的系统正常运行时间。
并非所有多租户都是生来平等的
真正的多租户控制对每个租户自身的隔离网络、存储和计算分配的访问。重要的是要确保租户是安全的,并且无法访问维护隔离区的控制平面。
成功实现多租户的关键因素包括
- 强大的安全性与细粒度的权限管理(最好是基于角色的访问控制)。
- 资源分配策略管理,使基础设施领导者能够使用规则、层级和逻辑轻松控制对资源的访问。
- 用户级别报告,用于了解实时使用情况和准确计费(适用于对其租户进行费用分摊或开具发票的组织)。
- 提高 GPU 利用率的工具,有助于最大化您现有的基础设施投资并控制成本。
- 灵活性,确保您的组织不会永远被锁定在购买单一供应商或云提供商的基础设施上。
- 完整的网络隔离,使每个租户真正位于自己的网络上,彼此隔离且无法访问任何其他租户的网络。
结论
基础设施领导者在其 AI 基础设施中踏上多租户之旅时,面临着许多安全和资源优化方面的考虑和挑战,但成功的实施最终将提高利用率和投资回报率。对于拥有集中管理计算资源的大型组织来说,这是毋庸置疑的。
ClearML 支持安全的多租户,它为租户创建隔离的网络,以运行其 AI 工作负载,使其免受其他租户的侵害。基础设施领导者和 IT 团队可以轻松管理每个租户的计算资源分配、运行实时使用报告,并实施额外的安全功能,例如基于角色的访问控制 (RBAC)、SSO 和 LDAP 集成。
要了解更多关于 ClearML 如何通过企业级安全性、易于管理的资源分配策略以及可以将 AI 吞吐量提高 10 倍的功能来支持多租户的信息,请申请演示与我们的销售团队人员交流。