RAG 为何在您的 LLMOps 中占有一席之地

2024 年 4 月 15 日

LLM 面临的挑战

随着可用于提供信息、提供建议或创建图像的生成式 AI 工具的爆炸式增长，LLM 已经激发了公众的想象力。尽管我们不能指望 LLM 拥有我们想要的所有信息，有时甚至会包含不准确的信息，但消费者使用生成式 AI 工具的热情持续高涨。

然而，当应用于商业场景时，对提供错误或遗漏答案的模型的容忍度迅速接近 0%。我们很快认识到，宽泛、通用的 LLM 不适用于特定领域或特定公司信息的检索。训练 LLM 所使用的大型数据集常常导致通用或混淆的回答，尤其是在概念和术语定义不清晰或具有行业特定含义的情况下。想象一个工作经验很少但充满热情的新员工，自信地回答每一个问题，但缺乏上下文和最新信息——这就像 LLM。这就是为什么检索增强生成 (RAG) 在 LLMOps 的 AI 技术栈中具有关键作用的原因。

什么是 RAG？

RAG 架构本质上是一个基于权威外部来源（在大多数情况下是您的公司数据）的问答系统，为 LLM 提供缺失的上下文。通过用外部知识增强 LLM，将 RAG 集成到 LLM 工作流程中可以产生更可预测、更准确的回答。

数据摄取步骤使 RAG 系统能够构建一个上下文和查询数据库，以便在将来被查询时智能地引用和检索正确的信息，供 LLM 格式化并包含在回答中。

通过在您的 AI 技术栈中包含 RAG，您正在提供 LLM 所需的特定领域、上下文正确的外部数据。无需重新训练模型，RAG 使 LLM 能够访问相关和更新的信息，从而获得更准确的回答。

RAG 的优势

使用 RAG 有许多优势

对数据的更大控制权

对数据访问的控制对企业至关重要。对于管理自身 LLM 基础设施的组织来说，RAG 使他们能够将内部数据与 LLM 一起使用。RAG 数据库可以像任何其他内部数据库一样维护——存放在需要访问凭证的安全位置。

实时更新 LLM

重新训练一个拥有数十亿参数的 LLM 是一个耗时且昂贵的重大提议，需要时间和资源。使用 RAG 通过实时或批量更新提供关键数据来生成回答，确保您的利益相关者始终从 LLM 接收到相关回答。

通过减少幻觉建立用户信任

在没有数据的情况下，LLM 只会简单地生成它。通过使用带有护栏（guardrails）的 RAG，组织可以减少甚至消除幻觉和编造数据的可能性。为公司构建一个可用的生成式 AI 工具需要付出很多努力，但只需要一次糟糕的体验就可能导致其被弃用。

RAG 的局限性

数据与隐私

隐私对企业至关重要，对于利用外部 LLM 服务的组织而言，RAG 使他们能够将私有数据与 LLM 一起使用，但需要注意的是，每次查询时，私有信息将作为上下文发送给外部 LLM 服务提供商！RAG 数据库可以像任何其他内部数据库一样维护——但其与外部 LLM 服务的使用确实会将数据暴露给第三方。

规模与 RAG 模型

为了正确检索上下文，RAG 使用较小的 LLM，将查询与正确上下文关联起来，许多现成的 RAG 模型在少量文档上表现出色。但当扩展数据库、摄取更多包含细微信息的文档时，现成的 RAG 模型无法检索到正确的上下文。因此，重要的是要理解 RAG 模型需要根据用例进行更新和优化，以便在大规模执行特定任务时表现更好。我们将在未来的博客文章中讨论如何收集反馈和重新训练 RAG 模型。

构建和部署 RAG

数据摄取和预处理

重要的是只向 RAG 系统输入相关的特定领域数据，以确保信息检索的准确性。

将文档加载到系统后，每个文档被分割成更小、更容易引用的片段，称为块（chunks）。块的大小在一定程度上取决于嵌入模型的能力，并且是这个过程的重要组成部分。数据预处理的另一个关键部分是去重，并消除 RAG 系统中可能存在的重复引用。

生成嵌入和构建向量数据库

随着数据的摄取和处理，嵌入模型构建向量数据库，将块与引用一起编目。向量数据库设计用于快速搜索和检索查询，因此需要低延迟推理来提供实时结果。

推理

一旦 RAG 系统准备好用作参考并与 LLM 集成，一个可查询的生成式 AI 工具的主干就构建完成了。该系统将能够返回带有可参考来源的上下文完整的回答。

结论

检索增强生成（RAG）正成为一种最佳实践，用于提高 LLM 回答的准确性，同时减少幻觉或偏离上下文的回答。使用 RAG 设置，维护也更容易一些——AI 团队只需要重新训练嵌入模型和更新向量数据库。无需管理和跟踪提示词或切换 LLM 基础模型。

为了优化整个 LLMOps 技术栈的性能，使用 NVIDIA AI Enterprise 的企业可以利用 NVIDIA cuDF 和 NVIDIA NeMo Data Curator 等工具，通过在 GPU 上执行并行操作，减少预处理大型数据集所需的时间。为了完全保护私有信息，团队还可以使用 TensorRT-LLM 进行本地或 VPC 模型部署，并结合 NVIDIA NeMo Retriever，在最大程度保护隐私的同时，不影响推理性能。了解更多关于 NVIDIA 的生成式 AI NeMo 框架的信息，该框架可通过 ClearML 的完整 LLMOps 解决方案一键部署。

开始使用

ClearML 的开源基础 AI 平台已在 GitHub 上提供。有关更高级的功能，例如管理大型非结构化数据集、基于角色的访问控制以及按用户组管理计算资源，请申请演示。