初看之下,ClearML 的 AI 开发中心与 Weights & Biases 等替代方案似乎在 MLOps 方面提供了相似的功能。例如,这两种解决方案都支持实验管理、数据管理和编排。然而,每种产品都被设计用于解决不同的用例。了解这些方法如何影响用户体验是很重要的。
为不同的用例构建
Weights & Biases 的解决方案旨在跟踪研究人员在构建更优模型方面的进展。它们并非以自动化、数据保护/治理或计算优化为目的而构建。它们首先是一个用于模型性能图表的仪表盘,我们认为它们在该用例方面做得很好。
ClearML 的 AI 平台,另一方面,设计时考虑了自动化、治理和计算优化。作为一家公司,我们的目标是通过自动化和接口创建,加速 AI 开发和部署的采用,并赋能整个 AI 团队,从研究人员到工程师,实现 AI 能力的产品化。这就是为什么我们的 AI 平台能够帮助公司大规模构建和开发可在其产品内部运行的 AI 模型。
在功能上,ClearML 的 AI 平台包含了用于 AI 研究开发的强大功能(即我们的 AI 开发中心),以及管理和优化 AI 计算集群的功能(即我们的 AI 基础设施控制平面),这使得它比 Weights & Biases 更具普适性。
ClearML 与竞争对手有何不同之处
实现 CI/CD 和更高效 AI 开发的自动化功能
我们最广泛使用的功能之一是管道(Pipelines)。除了简单地连接一系列步骤,ClearML 还允许 AI 开发者创建图形驱动和逻辑驱动的管道,其中可以包含与编排和集成外部流程相关的步骤。例如,通过反馈新数据进行模型训练、访问 GitOps 或监控模型性能来创建真正的 CI/CD。管道中的每个步骤都会被记录和缓存,从而可以在无需重复清洗或过滤过程的情况下重复使用先前处理过的数据。您可以在此处找到更多关于管道(Pipelines)的信息。
高级计算资源利用管理
为了帮助组织更好地利用现有计算资源,ClearML 提供了优化资源分配并确保任务持续运行的功能。我们还提供了 从每个 GPU 芯片本身提取更多价值的机制。例如,AI 基础设施所有者可以使用资源分配策略管理器,根据层级优先级控制对特定计算资源的访问,同时为每个团队设置配额和超额配额逻辑,以确保资源不会不必要地闲置。
ClearML 还支持动态分数 GPU,用于虚拟化分割任何 NVIDIA GPU(无论是否支持 MIG),无论是在 Kubernetes 上运行还是裸机。我们的动态分数 GPU 功能自动处理为每个工作负载分配适当大小的计算资源,这可以显著提高吞吐量。
支持私有共享计算
拥有集中管理或共享计算资源的大型组织将受益于 ClearML 的 AI 基础设施控制平面,该平台支持安全的多租户模式,为每个租户提供私有计算环境。租户位于完全隔离的网络中,无法查看或访问主共享计算环境,从而确保了所有用户的安全性和机密性。ClearML 还支持账户或用户级别的使用情况报告,用于跟踪计算小时数、数据存储、API 调用和其他指标,这些报告可以集成到客户的计费系统中。有关 ClearML 如何实现多租户的更多信息,请阅读我们之前的博客文章。
促进大型语言模型 (LLM) 部署的工具
ClearML 提供了平台内置应用,使测试和启动 LLMs 变得更加容易。ClearML 使 AI 开发者能够在平台内轻松启动 Gradio 和 Streamlit™ 应用,用于任何所需的工作流程,例如使利益相关者能够测试 LLM 的准确性。这使得团队能够直接从领域专家那里获取所需的反馈。
AI 团队还可以从 CLI 或直接从 ClearML Web UI 启动使用 ClearML 构建的 LLM 或嵌入模型,或从 Hugging Face 获取的现成模型。活动模型端点会显示和记录,使团队能够监控哪些模型正在共享数据。
控制数据、模型和计算资源访问的安全性
ClearML 构建的安全性能力满足企业、政府和国防组织的严格要求,提供了对每个用户的精细控制。我们的基于角色的访问控制不仅管理用户对数据源和模型的访问,还适用于项目(和子项目)以及他们可用于运行工作负载的队列。权限可以进一步扩展,通过限制提供给 LLM 的数据来控制用户与 LLM 的交互。客户可以轻松地将 ClearML 与他们首选的 SSO 身份验证提供商和 LDAP 目录集成。
非结构化数据的专门数据处理
通过使用元数据来控制和操作数据集,ClearML 使使用大型非结构化数据(如图像、视频、音频或文本)创建 AI 模型变得简单,并且可以从任何地方访问。我们的 Hyper-Datasets 功能允许 AI 开发者通过抽样和预览来探索他们的数据,并创建与开发中的模型直接相关的查询交集的自定义视图。用户可以根据他们的数据标注生成统计数据,并对单个帧进行更改。
面向未来的架构
最后同样重要的是,ClearML 完全开源、模块化的设计是与 Weights & Biases 解决方案的关键区别所在。ClearML 不受硬件、云服务商和芯片制造商的限制,可与复杂的基础设施、多个云提供商和新型芯片制造商实现开箱即用的兼容。成功的 AI 团队可以在 ClearML 架构之上快速、无缝地扩展。对于注重安全性的组织,ClearML 也可以部署到互联网连接受限或无互联网连接的隔离环境中。
做出正确的选择
在决定 AI 开发和部署平台时,请考虑主要利益相关者的用例、维护需求、平台可能对组织其他领域(如工程或运维)产生的影响,以及其在组织内更广泛采用的可扩展性。市场上针对不同用例的 AI 解决方案比比皆是。如果您想与我们的销售团队讨论 ClearML AI 平台如何帮助您更快地实现 AI 投资价值,请申请演示。