数据管理
机器学习开发过程中往往需要海量数据,而且在通常情况下,合适的训练数据集对于文件的质量和规格有着很高的要求。数据的质量一定程度决定了模型的好坏。
「一站式开发平台」数据管理模块集成了数据导入、数据筛选、数据标注、数据增强、版本管理等一站式数据服务。提供自动标注、数据增强等一系列数据加工方案,拥有高质量的数据标注处理算法,输出高品质的数据,支持下游 AI 数据训练获得更优的训练效果。
数据集业务架构

图 1 数据管理业务架构
「一站式开发平台」目前支持图片、视频、文本、医疗影像(dcm)等数据类型,支持图片分类、目标检测、目标跟踪、文本分类、器官分割、病灶检测等数据标注功能。内置数据增强功能(针对图片类型),可以针对已有数据集进行快速扩充,获得更好的数据多样性。
数据集标注类型
「一站式开发平台」数据集目前支持 视觉/文本 和 医疗影像 两大类业务场景:
视觉文本
标注类型 | 数据类型 | 业务场景 | 使用说明 | 智能标注 |
---|---|---|---|---|
图像分类 | 图片 | 识别图片是否是某类物体/状态/场景 | 单图单标签 | 部分支持 |
目标检测 | 图片 | 检测图片中多个目标 | 图片用矩形框标注位置和目标 | 部分支持 |
目标跟踪 | 视频 | 跟踪视频序列中的每帧图像目标位置、标注信息 | 指定视频目标唯一性 | 部分支持 |
文本分类 | 文本 | 实现文本内容自动分类 | 单文本单标签 | 部分支持 |
目前智能标注只支持预置标签,用户自定义标签需要单独实现
医疗影像
标注类型 | 数据类型 | 业务场景 | 使用说明 | 智能标注 |
---|---|---|---|---|
器官分割 | dcm | 对肺部 CT 影像实现自动器官分割功能 | 自定义标注器官路径 | 部分支持 |
病灶检测 | dcm | 检测肺部可疑结节信息 | 用矩形框标注病灶信息 | 暂不支持 |
智能标注介绍
智能标注即自动标注,通过该功能可以大幅度减少标注成本。「一站式平台」支持图像、视频、文本、医疗影像的自动标注。
- 图像类:智能标注支持预定义标签(COCO、ImageNet)自动标注,分为图像分类和目标检测两类场景。图像分类支持单图像单标签,目标检测支持多图像多标签。通过智能标注,算法会自动判断图像标签的置信度,并经过由用户手动确认,从而保证数据集的总体标注质量。
- 视频类:视频智能标注会跟踪视频序列中的每帧图像,根据图像上下文识别多个连续图像中相同的目标,并给出目标的 ID,标签分类和位置。用户也可以进行手动调整来优化标注质量。
- 文本类:文本智能标注针对单文本单标签类型,实现根据文本内容自动分类。
- 医疗影像类:目前支持肺部 CT 影像自动器官分割。
数据集状态说明
- 未标注:数据集所有文件均未标注
- 导入中:将本地待标注文件或者已标注数据集导入平台中,可以通过平台在线导入或数据集脚本工具
- 标注中:数据集中部分文件处在「未完成」的状态,且当前未在执行「自动标注」任务
- 自动标注中:当前数据集正在执行自动标注任务
- 自动标注完成:数据集已完成「自动标注」任务,或「自动标注完成」后有部分文件未经「人工确认」
- 标注完成:当前数据集所有文件都已通过「人工确认」环节
- 未采样:「目标跟踪」场景下视频数据集创建完毕的初始状态
- 采样中:「目标跟踪」场景下视频开始逐帧采样
- 采样失败:视频采样失败
- 目标跟踪中:对视频采样后生成的图片完成标注任务后,进行目标跟踪,生成目标id、目标位置
- 目标跟踪失败:文件缺失或其他原因导致失败
- 数据增强中:针对图片数据集进行文件扩充,基于原始图片转换生成新图片