准备数据
视觉类数据集目前支持图片、视频两种文件类型,不同类型的标注任务对于图片/视频内容有不同的要求:
- 图像分类:识别一张图片中是否为某类物体/场景,适用于图片内容单主体,需要给整张图片分类的场景。
- 目标检测:检测图像上每个物体的位置、标签类别。适用于图片上有多个物体需要检测。
- 目标跟踪:给定一个或多个目标,跟踪目标的移动位置变化。适用于视频文件对目标持续跟踪监测。
准备数据分为「未标注数据」和「本地已标注数据集」两类。
未标注数据
1.准备标签
- 在上传之前确定想要识别哪几种物体,并上传含有这些物体的图片。每个标签对应想要在图片中检测出的一种物体
- 「一站式平台」提供了常见的数据标签作为预置标签,方便用户按需使用
数据类型 | 标注类型 | 预置标签组 | 说明 |
---|---|---|---|
图片 | 目标检测 | COCO | COCO 是微软团队提供的一个用来进行图像识别的数据集 |
图片 | 图像分类 | COCO | 同上 |
图片 | 图像分类 | ImageNet | 根据 WordNet 层次结构组织的图像数据集 |
视频 | 目标跟踪 | COCO | 同上 |
2.准备数据
- 保证图片质量:不能有损坏的图片;目前支持的格式包括 .jpg/.png/.bmp/.jpeg; 单个文件不大于 5 MB
- 保证视频质量:不能有损坏的视频;目前支持的格式包括.mp4/.avi/.mkv/.mov/.webm/.wmv;单个文件不大于 1024 MB
- 不要把明显不同的多个任务数据放在同一个数据集内
- 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似
- 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景
- 目标检测数据集中,如果标注框坐标超过图片,将无法识别该图片为已标注图片
本地已标注数据集
导入数据集
- 图片格式支持 jpg/png/bmp/jpeg,不大于 5MB,位于 origin 目录下,不支持目录嵌套
- 本地数据集需要包括图片(origin 目录)、标注文件(annotation 目录)和标签文件三部分
- 标注文件为 json 格式,位于 annotation 目录下,必须和文件同名(如果不存在标注,可不上传),不支持目录嵌套
- 标签文件为 json 格式,命名要求为 label_{name}.json,其中 name 为标签组名称,不能与系统已有标签组重名
- 导入的图片名称不能重复
目录说明
本地数据集需要包括图片(origin 目录)、标注文件(annotation 目录)和标签文件三部分。

图 1 导入数据集目录说明