数据管理

机器学习开发过程中往往需要海量数据,而且在通常情况下,合适的训练数据集对于文件的质量和规格有着很高的要求。数据的质量一定程度决定了模型的好坏。

「一站式开发平台」数据管理模块集成了数据导入、数据筛选、数据标注、数据增强、版本管理等一站式数据服务。提供自动标注、数据增强等一系列数据加工方案,拥有高质量的数据标注处理算法,输出高品质的数据,支持下游 AI 数据训练获得更优的训练效果。

数据集业务架构

图 1 数据管理业务架构
图 1 数据管理业务架构

「一站式开发平台」目前支持图片、视频、文本、医疗影像(dcm)等数据类型,支持图片分类、目标检测、目标跟踪、文本分类、器官分割、病灶检测等数据标注功能。内置数据增强功能(针对图片类型),可以针对已有数据集进行快速扩充,获得更好的数据多样性。

数据集标注类型

「一站式开发平台」数据集目前支持 视觉/文本医疗影像 两大类业务场景:

视觉文本

标注类型数据类型业务场景使用说明智能标注
图像分类图片识别图片是否是某类物体/状态/场景单图单标签部分支持
目标检测图片检测图片中多个目标图片用矩形框标注位置和目标部分支持
目标跟踪视频跟踪视频序列中的每帧图像目标位置、标注信息指定视频目标唯一性部分支持
文本分类文本实现文本内容自动分类单文本单标签部分支持

目前智能标注只支持预置标签,用户自定义标签需要单独实现

医疗影像

标注类型数据类型业务场景使用说明智能标注
器官分割dcm对肺部 CT 影像实现自动器官分割功能自定义标注器官路径部分支持
病灶检测dcm检测肺部可疑结节信息用矩形框标注病灶信息暂不支持

智能标注介绍

智能标注即自动标注,通过该功能可以大幅度减少标注成本。「一站式平台」支持图像、视频、文本、医疗影像的自动标注。

  • 图像类:智能标注支持预定义标签(COCO、ImageNet)自动标注,分为图像分类和目标检测两类场景。图像分类支持单图像单标签,目标检测支持多图像多标签。通过智能标注,算法会自动判断图像标签的置信度,并经过由用户手动确认,从而保证数据集的总体标注质量。
  • 视频类:视频智能标注会跟踪视频序列中的每帧图像,根据图像上下文识别多个连续图像中相同的目标,并给出目标的 ID,标签分类和位置。用户也可以进行手动调整来优化标注质量。
  • 文本类:文本智能标注针对单文本单标签类型,实现根据文本内容自动分类。
  • 医疗影像类:目前支持肺部 CT 影像自动器官分割。

数据集状态说明

  • 未标注:数据集所有文件均未标注
  • 导入中:将本地待标注文件或者已标注数据集导入平台中,可以通过平台在线导入或数据集脚本工具
  • 标注中:数据集中部分文件处在「未完成」的状态,且当前未在执行「自动标注」任务
  • 自动标注中:当前数据集正在执行自动标注任务
  • 自动标注完成:数据集已完成「自动标注」任务,或「自动标注完成」后有部分文件未经「人工确认」
  • 标注完成:当前数据集所有文件都已通过「人工确认」环节
  • 未采样:「目标跟踪」场景下视频数据集创建完毕的初始状态
  • 采样中:「目标跟踪」场景下视频开始逐帧采样
  • 采样失败:视频采样失败
  • 目标跟踪中:对视频采样后生成的图片完成标注任务后,进行目标跟踪,生成目标id、目标位置
  • 目标跟踪失败:文件缺失或其他原因导致失败
  • 数据增强中:针对图片数据集进行文件扩充,基于原始图片转换生成新图片
Last updated on