功能聚焦:非结构化视觉数据的超数据集

2024年11月14日

ClearML 的端到端 AI 平台在从数据准备和管理到实验、部署和性能监控的整个过程中为 AI 构建者提供支持。ClearML 数据管理能力的核心是其独特的视觉数据处理方法,即超数据集(Hyper-datasets)。

我们相信您已经充分了解数据版本控制的重要性,但在此快速回顾一下:有效的数据管理对于以下方面至关重要: 

  • 可重现性,以便您能够可靠地使用相同的数据进行再训练; 
  • 透明度,允许其他 AI 构建者审查用于训练的数据;以及 
  • 合规性,确保您可以跟踪和验证训练数据以满足法规要求。

数据探索

超数据集(Hyper-datasets)专为管理非结构化视觉数据而设计。一个超数据集由多个帧组成,通过超数据集名称和版本关联在一起。每个帧包含两个主要组件: 

  1. 原始数据链接:指向存储原始数据(图像、视频或图像组)位置的链接。它可以存储在第三方存储中,例如 S3、NFS 或其他位置。
  2. 元数据:描述原始数据,包括对象分类、边界框、分割掩码和自定义元数据。 

这种结构使数据和研究团队能够对其数据进行版本控制、审查和协作,同时将数据安全地保存在他们自己的基础设施内,无论数据是存储在云端还是本地/网络存储中。ClearML 永远不会访问您的数据。

附加到每个帧的元数据使团队能够轻松查询和探索超数据集的子集,而无需单独对每个子集进行版本控制,从而通过确保不需要重复版本来简化数据管理。


超数据集数据探索

训练数据管理

第二个要素是将管理的数据输入到训练/测试任务中。ClearML 通过其 SDK,将用于数据探索的强大查询语言直接集成到实验流程中。AI 构建者可以通过选择特定的数据集版本并即时查询,将超数据集中的数据导入到实验中。查询选项包括

  1. 对象过滤:根据对象数量、置信度等过滤器,包含或排除每个帧中的对象。
  2. 即时对象平衡:定义对象的采样频率,确保代表性不足的对象足够频繁地出现,以提高模型准确性。
  3. 元数据过滤:按特定的帧属性进行过滤,例如光照条件、位置、一天中的时间或任何自定义属性。 

由于数据集版本控制和过滤作为实验参数的一部分可用,AI 构建者可以创建高级自动化,例如对数据集属性进行参数搜索。

数据自动化

超数据集可以成为自动化的强大驱动力。ClearML 的客户利用其 SDK 和超数据集来自动化数据收集、标注和模型训练流程。

一个流行的用例是“困难样本挖掘”,客户利用超数据集帮助其模型专注于具有挑战性、难以分类的对象,而不是只关注易于学习的对象。在模型测试期间,以低置信度检测到的对象会自动标记为“困难”。然后可以对这些“困难”样本进行过采样,帮助模型提高其检测准确性。一旦模型能够以高置信度正确分类这些样本,“困难”标记就会被清除——所有这些都通过由超数据集驱动的自动化流程进行管理。

此工作流程还可以增强标注过程。在与专用标注软件集成时,ClearML 为标注者提供“困难”样本,以确保准确标注,降低误标注的风险。更正后的标注会反馈回数据集中,创建更新的数据集版本,模型随后会使用这些版本进行进一步训练。


超数据集帧视图

加速实验管理

将 ClearML 的超数据集与其实验管理器连接起来,可确保完整的数据可重现性。每个实验都直接链接到特定的数据集版本和查询,从而能够精确复现实验。一旦超数据集与实验关联,AI 构建者就可以通过搜索与数据本身相关的参数(例如数据集版本和查询)来自动化超参数优化。这使得比较结果和确定最佳数据配置变得容易。

超数据集还通过允许 AI 构建者将训练好的模型链接到训练中使用的精确数据排列来支持合规性,从而实现对训练过程的全面审计。


过滤后的数据统计

结论

ClearML 的超数据集在整个模型构建过程中为组织提供支持。从数据收集和初步探索,到数据集版本控制、合规性,再到确保模型在正确的数据上训练而没有训练/测试污染,超数据集为组织内的不同利益相关者提供了不同的解决方案。

要了解有关 ClearML 超数据集的更多信息,请访问我们的网站阅读文档。如果您想查看实际演示,请申请演示以与我们的销售团队联系。

Facebook
Twitter
LinkedIn
回到顶部