案例研究

利用 ClearML Tasks 和 Hyperdatasets 实现高效的相机陷阱数据管理和分析

2025年5月13日

作者:Jennifer Zhuge,野生动物保护解决方案软件/AI工程师

 

野生动物保护解决方案(WPS)为一线环保主义者提供免费的尖端技术解决方案,以保护濒危物种和生态系统。相机陷阱是我们使命中的基本工具,它们捕获大量图像数据,为野生动物种群和栖息地健康提供关键见解。WPS 的全球野生动物保护区相机陷阱网络每天将超过 65,000 张照片传输到我们的目标检测和物种分类管线中。这些实时见解往往是阻止偷猎企图和失去濒危动物之间的区别。对于我们的团队来说,高效管理机器学习 (ML) 工作流程对于推动保护工作和为所有人建设一个繁荣的星球至关重要。

相机陷阱项目通常跨越多个地点和年份,生成数 TB 的视觉数据,并附带必要的元数据(位置、时间、环境读数)。这种数据规模在数据管理、处理和分析方面带来了重大的操作障碍。为了克服这些挑战,我们正在开发 Akili 平台,旨在简化相机陷阱研究工作流程,特别是针对非技术用户。Akili 架构的一个关键组成部分是 ClearML,一个开源的 AI/机器学习平台。本文简要描述了 Akili 如何利用 ClearML 的两个核心功能——TasksHyperdatasets——来建立一个稳健、可复现、可扩展的相机陷阱数据科学框架。

ClearML:Akili 的 MLOps 骨干

ClearML 擅长自动化和编排工作流程,提供详细的实验跟踪、强大的数据版本控制、模型仓库管理和分布式任务执行等功能。

ClearML Hyperdatasets:敏捷且版本化的数据子集划分

管理庞大且动态的相机陷阱数据集是一个重大挑战。手动为不同的实验需求(例如,来自特定公园的数据或包含特定物种的数据)整理特定数据子集既费力又容易出错。ClearML Hyperdataset 提供了一个复杂的解决方案,因为它不是数据的副本。相反,它充当一个版本化的定义——本质上是一个查询或一组指针——指定了底层数据(通常存储在经济高效的对象存储中,例如 S3、GCS 或 Azure Blob Storage)的特定子集。

  1. 确保数据版本化以实现可复现性:当配置 ClearML Task 使用 Hyperdataset 时,它会明确记录该Hyperdataset 定义的特定版本。这在代码执行(Task)和它所操作的精确数据片段之间建立了不可变的链接。即使底层数据池增长或 Hyperdataset 定义后续更新(创建新版本),过去的实验仍完全可复现,因为它们与最初使用的确切 Hyperdataset 版本绑定。这对于模型调试和理解随时间变化的性能至关重要。
  2. 存储效率:与为每个小的实验变化或训练-测试-验证划分复制可能达 TB 级别的数据不同,Hyperdatasets 允许 Akili 的 Tasks 通过使用元数据查询进行数据集过滤来动态访问所需的数据。由于 Hyperdatasets 主要存储元数据和指针,它们非常轻量级,与维护大型数据集的多个副本相比,可以最大限度地降低存储成本并简化数据管理。
  3. 标注功能:ClearML 直观的标注 UI 和 SDK 简化了对自动化标注的手动审查和修正。ClearML 标注还有一个非常通用的元数据字段,使我们能够跟踪每个标签是由人还是由特定模型生成的等详细信息。审阅者的备注也可以存储在标注元数据中,这对于记录具有挑战性的标注决策特别有用。

ClearML Tasks:捕获和跟踪每一次执行

一个Task代表脚本或代码片段的单次、已记录的执行。当使用 ClearML SDK 进行了插桩的代码运行时,它会自动记录大量信息,创建一个全面且可追溯的记录。在 Akili 平台中,Tasks 用于封装相机陷阱数据工作流程的不同阶段:

  1. 数据摄取与预处理:负责获取原始数据、应用初始质量过滤、提取元数据、标准化图像格式或执行数据增强的脚本作为 ClearML Tasks 运行。ClearML 自动记录精确的代码版本(Git commit)、执行参数、库依赖、控制台输出以及任何产生的产物(例如,处理后的数据文件、元数据摘要)。
  2. 模型训练:将模型训练作为 Task 运行可自动化记录关键细节。这会捕获训练脚本本身、所有超参数(如学习率、批量大小、优化器设置)、使用的特定 Hyperdataset 版本、系统指标(CPU/GPU 使用率)、性能日志(准确率、epochs 上的损失)以及最终训练好的模型文件。 这使得 Akili 用户能够仔细比较实验、找出最佳配置并检索特定的模型检查点。 
  3. 模型评估:当模型评估作为 Task 运行时,评估脚本、正在评估的模型、测试数据集版本以及详细的性能指标(例如,精度-召回曲线、F1 分数)都会被记录。 
  4. 推理与部署:将训练好的模型应用于传入的相机陷阱数据进行自动化分析(例如,目标检测和物种分类)也可以通过 Task 运行。生成的预测结果作为标注添加到 Hyperdataset 帧上,分析结果则作为与 Task 相关联的产物存储。

在 Akili 中使用 Tasks 的主要优势在于固有的可追溯性和可复现性。每个重要的计算步骤都成为一个完整记录的实验。研究人员可以轻松查看过去的运行,了解确切的执行条件,克隆 Tasks 以使用修改后的参数进行迭代,或回滚到之前成功的运行,从而确保透明度和科学严谨性。

协同作用:利用 Hyperdatasets 的 Tasks

一个标准的工作流程示例了 Hyperdatasets 和 Tasks 之间的协同作用

  1. 研究人员定义一个 Hyperdataset 版本(例如,“African_Species_Train_v1.2”),指定所需数据子集的标准。
  2. 模型训练脚本作为 ClearML Task 启动,使用“African_Species_Train_v1.2”。
  3. 执行期间,ClearML 会自动记录
    • Task 详情(代码版本、参数、环境)。
    • 使用的确切 Hyperdataset 版本(v1.2)。
    • 所有相关的指标、日志、产物和最终训练好的模型。

这保证了 Akili 平台内生成的每个结果都具有清晰且可验证的来源,将特定的代码执行与使用的精确数据版本关联起来,从而实现无缝复现。

通过战略性地集成 ClearML Tasks 和 Hyperdatasets,Akili 平台为野生动物保护解决方案提供了一个针对相机陷阱研究独特需求量身定制的 MLOps 框架。Hyperdatasets 支持对动态图像数据集进行灵活、高效且严谨的版本化管理,而 Tasks 确保对所有计算过程进行细致的跟踪和复现。以 ClearML 为基础的 Akili 平台,标志着将 AI 技术应用于保护全球生物多样性这一关键使命的重大进展。

编者注:野生动物保护解决方案使用ClearML 的AI 开发中心,一个管理 AI 生命周期的一体化解决方案。无论客户是构建以数据为中心的工作流程、训练模型还是将其部署到生产环境,ClearML 都提供了一个统一的开源平台,旨在实现灵活性、可扩展性和效率。简化 AI 开发的各个阶段。该开源架构完全独立于云平台和供应商,支持与现有基础设施和工具的无缝集成,确保团队能够专注于创新而没有操作障碍。 如果您想了解 ClearML 在简化 AI 与 ML 工作流程(以及管理 GPU 集群、优化利用率和轻松部署生成式 AI 模型)方面的强大能力,请申请演示

Facebook
Twitter
LinkedIn
回到顶部