数据集脚本工具使用说明
开发数据集上传脚本的目的是帮助开发人员快速上传图片 / 发布本地已有数据集 / 导入预置数据集功能。
工具下载
上传文件
为了提升大数据集(5000+ 文件)上传效率,我们增加了脚本上传文件功能,开发人员只需启动命令行一键操作,就能实现超大数据集文件的快速上传,极大地释放了工作效率。
tip
Windows 下运行 run.bat,Linux/macOS 下运行 run.sh
1.运行脚本

2.上传文件
根据提示输入待上传文件的数据集ID和本地上传文件的绝对路径:

上传文件成功:

3.查看上传的文件
3.1数据集详情中查看已上传的图片:

3.2数据集详情中查看已上传的文本:

导入已有数据集
为了实现其他平台已标注完成的数据集在「一站式开发平台」上进行开发,我们增加了数据集导入的功能,实现对数据集的全流程功能操作。
导入图片,文本数据集
tip
- 图片格式支持 jpg/png/bmp/jpeg,不大于 5M,文本格式支持 txt,位于 origin 目录下,不支持目录嵌套
- 本地数据集需要包括图片(origin 目录)、标注文件(annotation 目录)和标签文件三部分
- 标注文件为 json 格式,位于 annotation 目录下,必须和文件同名(如果不存在标注,可不上传),不支持目录嵌套
- 标签文件为 json 格式,命名要求为 label_{name}.json,其中 name 为标签组名称,不能与系统已有标签组重名
- 导入的文件名称不能重复
1.目录说明
本地数据集需要包括文件(origin 目录)、标注文件(annotation 目录)和标签文件三部分。

2.文件格式
2.1 标签文件
格式:
详细示例:
2.2 标注文件
1. 图片分类:
详细示例:
2. 目标检测:
详细示例:
3. 文本分类:
详细示例:
3. 操作步骤
3.1 新建导入数据集(根据需求选取图片,文本类别)
点击「导入数据集」:



3.2 运行脚本

按照提示输入待导入数据集的ID和本地数据集的绝对路径,导入数据集的大小不同,导入时间不同,请耐心等待;

导入数据集成功:

3.3 查看导入的数据集
进入 「医疗影像」 找到已导入的数据集,点击 “查看标注” 。

进入已导入的数据集详情页查看:


导入平台预置数据集
平台预置了多种公共数据集, 支持图片/视频/文本等多种数据标注格式. 方便用户直观的查看数据处理后的效果.也为后续训练功能提供公共数据集数据。
预置数据集分类
名称 | 数据类型 | 标注类型 | 说明 |
---|---|---|---|
Caltech-256 | 图片 | 图片分类 | Caltech-256 是一个图像物体识别数据集,包含 29780 张图片,256个物体类别。 |
COCO2017-train | 图片 | 目标检测 | MS COCO 数据集训练集。 COCO 全称是 Common Objects in Context,是微软团队提供的一个大型的、丰富的目标检测、分割和识别的数据集。 |
COCO2017-val | 图片 | 目标检测 | MS COCO 数据集验证集。 |
Data-Augment | 图片 | 图片分类 | 基于部分 O-HAZE 数据集和网络图片组成的内置数据增强算法的数据集(仅作功能示例)。 |
Object-Tracking | 视频 | 目标跟踪 | 基于「一站式开发平台」内置目标跟踪算法的数据集(仅作功能示例)。 |
NLP_IMDB | 文本 | 文本分类 | 基于 IMDB 影评的文本数据集,分为 positive/negative。 |
下载平台 预置数据集
目录说明
预置数据集需要包括文件(origin 目录)、标注文件(annotation 目录)、(versionFile 版本目录)和创建预置数据集 sql 文件以及 json 标签文件五部分。

操作步骤
1. 运行导入数据集脚本
开始运行:

按照提示输入待导入预置数据集的ID和已下载好的本地预置数据集的绝对路径,导入数据集的大小不同,导入时间不同,请耐心等待;

导入预置数据集成功:

2. 查看导入的预置数据集
进入 “数据集管理” 找到「预置数据集」查看导入的数据:

进入已导入的预置数据集详情页查看:
