2024 年大规模 AI 基础设施现状

2024 年 3 月 13 日

揭示未来前景、关键洞察和业务基准

在我们今年与 AIIA 和 FuriosaAI 合作开展的最新研究中,我们希望更深入地了解全球 AI 基础设施计划,包括受访者的:

1) 计算基础设施增长计划
2) 当前调度和计算解决方案的使用体验,以及
3) 2024 年的模型和 AI 框架使用及计划。 

继续阅读以深入了解关键发现!

立即下载调查报告 →

关键发现

1. 96% 的公司计划扩大其 AI 计算能力和投资,同时可用性、成本和基础设施挑战是他们关注的重点。

几乎所有受访者(96%)都计划扩展其 AI 计算基础设施,其中 40% 考虑增加本地部署,60% 考虑增加云部署,他们正在寻求灵活性和速度。云计算的首要关注点是浪费和闲置成本。 

当被问及 2024 年扩展 AI 面临的挑战时,计算限制(可用性和成本)位居榜首,其次是基础设施问题。受访者认为他们缺乏自动化或没有合适的系统。

部署生成式 AI 的最大担忧是进展过快而忽略了重要因素(例如,优先处理错误的业务用例)。排名第二的担忧是由于缺乏执行能力而进展过慢。

图 1:96% 的公司计划扩展其 AI 计算能力。

2. 惊人的 74% 的公司对其当前的作业调度工具感到不满,并经常面临资源分配限制,而有限的按需自助访问 GPU 计算能力抑制了生产力。

作业调度能力各不相同,高管们普遍对其作业调度工具不满意,并报告称,如果数据科学和机器学习 (DSML) 团队成员能够实时自助使用计算资源,生产力将大幅提高。 

74% 的受访者认为将计算和调度功能作为统一的 AI/ML 平台的一部分很有价值(而不是拼凑由独立点解决方案组成的 AI 基础设施技术栈),但只有 19% 的受访者拥有支持在队列中查看和管理作业并有效优化 GPU 利用率的调度工具。

图 2:74% 的受访者认为将计算和调度功能作为统一的 AI/ML 平台的一部分很有价值。

受访者报告称,他们拥有不同级别的调度功能,其中额度管理位居首位(56%),其次是动态多实例 GPU/GPU 分区(42%),以及创建节点池(38%)。 

65% 的受访公司使用特定供应商解决方案或云服务提供商来管理和调度其 AI/ML 作业。25% 的受访者使用 Slurm 或其他开源工具,9% 的受访者仅使用 Kubernetes,后者不支持调度功能。74% 的受访者表示对其当前的调度工具感到不满或仅部分满意。

DSML 从业人员独立自助使用计算资源和管理作业调度的能力在 22-27% 之间徘徊。然而,93% 的受访者认为,如果任何需要实时计算资源的人都能轻松自助使用,他们的 AI 团队生产力将大幅提高。

3. 推理解决方案的关键购买因素是成本。

为了解决 GPU 短缺问题,约 52% 的受访者表示正在积极寻找 2024 年用于推理的经济高效的 GPU 替代方案,而用于训练的这一比例为 27%,这表明 AI 硬件使用发生了转变。然而,五分之一的受访者(20%)表示他们对经济高效的 GPU 替代方案感兴趣,但不知道存在哪些替代方案。

图 3:52% 的受访者表示正在积极寻找 2024 年用于推理的经济高效的 GPU 替代方案。

这表明成本是推理解决方案的关键购买因素,我们预计,由于大多数公司尚未实现大规模的生成式 AI 生产,对成本效益高的推理计算的需求将会增长。

4. 计算面临的最大挑战是延迟,其次是计算资源的获取和功耗。

在所有公司规模和地区中,延迟、计算资源的获取和功耗始终被列为最受关注的计算问题。超过一半的受访者计划在 2024 年在其商业部署中使用大型语言模型(LLM)(Llama 和类似模型),其次是嵌入模型(BERT 及其系列)(26%)。解决计算挑战对于实现他们的愿望至关重要。

图 4:超过一半的受访者计划在 2024 年使用大型语言模型(LLM)(Llama 和类似模型)。

5. 优化 GPU 利用率是 2024-2025 年的主要关注点,大多数 GPU 在高峰时段利用率不足。

40% 的受访者,无论公司规模大小,都计划使用编排和调度技术来最大限度地利用其现有的计算基础设施。  

当被问及 GPU 使用的高峰期时,15% 的受访者报告称,他们可用和购买的 GPU 中只有不到 50% 正在使用。53% 的受访者认为 GPU 资源利用率在 51-70% 之间,只有 25% 的受访者认为他们的 GPU 利用率达到 85%。只有 7% 的公司认为其 GPU 基础设施在高峰时段利用率超过 85%。

图 5:15% 的受访者报告称,他们可用和购买的 GPU 中只有不到 50% 正在使用。 

当被问及当前管理 GPU 使用的方法时,受访者采用了队列管理和作业调度(67%)、多实例 GPU(39%)和配额(34%)。优化用户之间 GPU 分配的方法包括开源解决方案(24%)、HPC 解决方案(27%)和特定供应商解决方案(34%)。另有 11% 使用 Excel,5% 使用自研解决方案。只有 1% 的受访者没有最大化或优化其 GPU 利用率。

6. 开源 AI 解决方案和模型定制是首要任务,96% 的公司专注于主要定制开源模型。

几乎所有高管(95%)都表示,拥有和使用外部开源技术解决方案对他们的组织很重要。

图 6:96% 的受访公司目前或计划在 2024 年定制开源模型。

此外,96% 的受访公司目前或计划在 2024 年定制开源模型,其中开源框架在全球拥有最高的采用率。PyTorch 是定制开源模型的主要框架,61% 的受访者使用 PyTorch,43% 使用 TensorFlow,16% 使用 Jax。约三分之一的受访者目前使用或计划使用 CUDA 进行模型定制。 

在此下载全球调查报告的免费副本.

关于调查研究作者

  • 人工智能基础设施联盟 (The AI Infrastructure Alliance) 致力于汇聚构建当前和未来人工智能应用所需的基本要素。了解更多信息,请访问 https://ai-infrastructure.org/

  • FuriosaAI 是一家半导体公司,致力于设计高性能数据中心 AI 加速器,大幅提高了能源效率。访问 https://www.furiosa.ai/comingsoon 了解更多信息。

  • 作为企业释放 AI 潜力的领先开源端到端解决方案,ClearML 被超过 1,600 家企业客户使用,以开发其整个 AI 模型生命周期的高度可重复流程,从产品功能探索到模型部署和生产监控。了解更多信息,请访问公司网站 https://clearml.org.cn

Facebook
Twitter
LinkedIn
滚动到顶部