退出云端:成本、安全和性能驱动企业回归本地部署

2024 年 10 月 1 日

过去十年,组织将软件、存储和计算大规模迁移到云端,带来了从灵活性和更低的前期成本到更便捷的维护等业务优势。但最近我们看到越来越多的公司正在重新评估其云策略,并由于几个关键因素而选择将其数据迁移回本地基础设施。

根据 Cloud Software Group 旗下业务部门 Citrix 发布的一份 2024 年报告显示,高达 42% 的美国组织正在考虑或已经将其至少一半的基于云的工作负载迁移回本地基础设施。这种趋势通常被称为“退出云端”,其背后是企业在云环境中面临的财务、安全和运营挑战,以及对基础设施进行更好、更优化控制的需求。下面我们逐一了解这些因素。

财务考量

从长远来看,在云端运营的成本可能会出乎意料地高。虽然最初的云迁移通常承诺会降低资本支出,但问题在于存储、数据流出和未充分利用资源的经常性成本可能会迅速累积。这些可变成本也需要加以控制,否则它们最终可能会超出最初的预测。

可变成本并非退出云端的唯一因素;GPU 淘金热推动了对加速型云实例的需求,因为公司正试图获取强大的机器来训练不断增长的神经网络并开发定制的大型语言模型。如果租用这些机器,每台每月可能花费数万美元(而训练大型语言模型可能需要并行使用多台机器),并且通常需要预先预留并签订年度承诺(这违背了灵活性的初衷!)。

正如上述关于 Citrix 报告的文章中所强调的那样,通过转向本地部署,企业可以实现显著的成本节省。例如,Basecamp 之前每年在云解决方案上花费 320 万美元,通过将服务从云端转移到本地基础设施,预计在五年内可节省 700 万美元

安全担忧

由于数据现在被视为“新黄金”,公司不太愿意将其置于自有场所之外,这会增加知识泄露以及丧失竞争优势和专有知识产权的风险。数据泄露事件,例如 Capital One 泄露事件,已经表明除非你存储自己的数据,否则你无法拥有真正固若金汤的访问控制。本地基础设施要求安全架构师有意识地决定安全架构(而不是依赖云的默认设置),这带来了对数据访问和安全协议更好的控制。

定制功能

一些公司发展迅速,其独特的业务需求可能无法通过云提供商提供的广泛通用服务得到充分满足,从而超出了云提供商的能力范围。专业硬件、定制软件栈和性能需求通常促使企业探索从云基础设施迁移出来。

一个值得注意的例子是 Dropbox,它曾是亚马逊 S3 存储服务的重要客户。随着 Dropbox 产品成熟以及其工程团队获得了处理定制存储解决方案的专业知识,该公司将其几乎所有的存储都迁移到了本地基础设施。他们甚至开发了定制硬件来满足其特定的性能需求,从而获得了更大的控制权和优化。

混合云方法

越来越多的企业正在采用混合云模式,结合本地和云基础设施来平衡控制、安全性和可扩展性。这为企业提供了一种“两全其美”的方法。敏感数据和关键系统通过本地机器完全由企业控制,而敏捷和动态的服务及工作负载可以在云上运行以增加灵活性。

采用混合基础设施的一个主要优势是解决了“云溢出”问题,即当本地容量完全被占用但仍需要处理额外工作负载时发生的情况。在这种情况下,超出的工作负载会被转移到云资源上。这种策略使组织能够在需求适中的时期保持低成本,同时确保在需要时可获得额外的计算能力。然而,如果云溢出没有得到仔细管理,成本可能会显著增加——尤其是在云资源上执行低优先级项目时。为此,ClearML 为 AWS、Azure 和 GCP 云实例提供自动伸缩器。我们的自动伸缩器在需要计算时启动实例,并在预定的空闲时间后自动关闭它们,消除了为闲置机器付费的风险。为了避免不必要的开支,实施强大的 RBAC(基于角色的访问控制)和明确的硬件资源策略至关重要,以确保云资源得到有效利用。

使用 ClearML 弥合云端与本地之间的差距

ClearML 通过两种主要方式帮助构建 AI 产品的公司弥合云端和本地之间的差距:基础设施抽象和原生混合基础设施支持。

ClearML 使用我们的 ClearML Agent 来抽象计算基础设施,ClearML Agent 位于计算硬件之上。一旦任务到达执行,它会构建一个沙盒执行环境,对代码和参数进行实时修改,然后执行任务。这确保了工作负载使用底层硬件资源,而无需了解(或关心)具体的底层计算细节。

这种抽象使得从 AI 构建者的角度来看,任务执行接口成为唯一需要的接口,无论工作负载是在云端还是本地运行。这是一个巨大的优势,因为 AI 构建者可以专注于他们最擅长的事情——构建 AI 产品,而不是学习新的基础设施怪癖。

此外,ClearML 使从云端到本地的迁移更加容易,因为无需大量的学习曲线或针对不同平台调整代码。无摩擦的体验确保了平稳的迁移,因为用户体验是相同的。

ClearML 的混合基础设施支持确保 ClearML 适用于任何部署类型。ClearML 支持控制平面和计算,无论是在云端还是本地(包括物理隔离系统),都不会牺牲任何特性或功能。作为一个与硬件无关的平台,IT 团队可以自由地使用任何芯片制造商的硬件来提升计算能力。无论你的工作负载现在还是将来在哪里运行,ClearML 都能适应你的需求,并可在你独特的部署中使用。

使用 ClearML 应对从云端到本地的转变

随着企业继续重新评估其云策略,许多企业正在选择一种更平衡的方法,即同时利用本地基础设施和云资源。正如我们所见,财务压力、安全担忧和性能可靠性正在推动这一转变。

然而,这种迁移并不一定困难。ClearML 通过抽象基础设施和支持混合部署,帮助组织无缝弥合云端和本地环境之间的差距。借助 ClearML,公司可以专注于构建其 AI 产品,而无需担心底层基础设施的复杂性,从而确保无论采用何种部署模式,都能保持敏捷性和面向未来的能力。

ClearML 提供完整的 AI 基础设施控制平面,以协助组织应对管理 AI 资源的复杂性。如需了解 ClearML 如何支持你退出云端并无缝过渡到混合计算基础设施的更多信息,请申请演示,与我们的销售团队成员联系。

Facebook
Twitter
LinkedIn
滚动到顶部