数据集脚本工具使用说明

开发数据集上传脚本的目的是帮助开发人员快速上传图片 / 发布本地已有数据集 / 导入预置数据集功能。

工具下载

上传文件

为了提升大数据集(5000+ 文件)上传效率,我们增加了脚本上传文件功能,开发人员只需启动命令行一键操作,就能实现超大数据集文件的快速上传,极大地释放了工作效率。

tip

 Windows 下运行 run.bat,Linux/macOS 下运行 run.sh

1.运行脚本

图 1 运行脚本
图 1 运行脚本

2.上传文件

根据提示输入待上传文件的数据集ID和本地上传文件的绝对路径:

图 2 上传文件
图 2 上传文件

上传文件成功:

图 3 上传文件成功
图 3 上传文件成功

3.查看上传的文件

3.1数据集详情中查看已上传的图片:

图 4 视觉数据集详情
图 4 视觉数据集详情

3.2数据集详情中查看已上传的文本:

图 5 文本数据集详情
图 5 文本数据集详情

导入已有数据集

为了实现其他平台已标注完成的数据集在「一站式开发平台」上进行开发,我们增加了数据集导入的功能,实现对数据集的全流程功能操作。

导入图片,文本数据集

tip
  1. 图片格式支持 jpg/png/bmp/jpeg,不大于 5M,文本格式支持 txt,位于 origin 目录下,不支持目录嵌套
  2. 本地数据集需要包括图片(origin 目录)、标注文件(annotation 目录)和标签文件三部分
  3. 标注文件为 json 格式,位于 annotation 目录下,必须和文件同名(如果不存在标注,可不上传),不支持目录嵌套
  4. 标签文件为 json 格式,命名要求为 label_{name}.json,其中 name 为标签组名称,不能与系统已有标签组重名
  5. 导入的文件名称不能重复

1.目录说明

本地数据集需要包括文件(origin 目录)、标注文件(annotation 目录)和标签文件三部分。

图 6 导入数据集目录说明
图 6 导入数据集目录说明

2.文件格式

2.1 标签文件

格式:

name: 名称
color: 颜色(16进制编码)

详细示例:

[{
"name": "行人",
"color": "#ffbb96"
},
{
"name": "自行车",
"color": "#fcffe6"
}]

2.2 标注文件

1. 图片分类:

name: 对应标签名称
score:置信分数(0-1)

详细示例:

[{"name":"wheaten_terrier","score":1}]

2. 目标检测:

name: 对应标签名称
bbox: 标注位置
score:置信分数(0-1)

详细示例:

[{
"name": "行人",
"bbox": [321.6755762696266, 171.32076993584633, 185.67924201488495, 145.02639323472977],
"score": 0.6922634840011597
},
{
"name": "自行车",
"bbox": [40.88740050792694, 22.707078605890274, 451.21362805366516, 326.0102793574333],
"score": 0.6069411635398865
}]

3. 文本分类:

name: 对应标签名称
score:置信分数(0-1)

详细示例:

[{"name":"negtive movie review","score":1}]

3. 操作步骤

3.1 新建导入数据集(根据需求选取图片,文本类别)

点击「导入数据集」:

图 7 导入数据集
图 7 导入数据集
图 8 阅读说明
图 8 阅读说明
图 9 创建数据集(根据需求选取图片,文本类别)
图 9 创建数据集(根据需求选取图片,文本类别)

3.2 运行脚本

图 10 运行脚本
图 10 运行脚本

按照提示输入待导入数据集的ID和本地数据集的绝对路径,导入数据集的大小不同,导入时间不同,请耐心等待;

图 11 导入数据集
图 11 导入数据集

导入数据集成功:

图 12 导入数据集成功
图 12 导入数据集成功

3.3 查看导入的数据集

进入 「医疗影像」 找到已导入的数据集,点击 “查看标注” 。

图 13 数据集列表
图 13 数据集列表

进入已导入的数据集详情页查看:

图 14 目标分类详情
图 14 目标分类详情
图 15 文本分类详情
图 15 文本分类详情

导入平台预置数据集

平台预置了多种公共数据集, 支持图片/视频/文本等多种数据标注格式. 方便用户直观的查看数据处理后的效果.也为后续训练功能提供公共数据集数据。

预置数据集分类

名称数据类型标注类型说明
Caltech-256图片图片分类Caltech-256 是一个图像物体识别数据集,包含 29780 张图片,256个物体类别。
COCO2017-train图片目标检测MS COCO 数据集训练集。 COCO 全称是 Common Objects in Context,是微软团队提供的一个大型的、丰富的目标检测、分割和识别的数据集。
COCO2017-val图片目标检测MS COCO 数据集验证集。
Data-Augment图片图片分类基于部分 O-HAZE 数据集和网络图片组成的内置数据增强算法的数据集(仅作功能示例)。
Object-Tracking视频目标跟踪基于「一站式开发平台」内置目标跟踪算法的数据集(仅作功能示例)。
NLP_IMDB文本文本分类基于 IMDB 影评的文本数据集,分为 positive/negative。

下载平台 预置数据集

目录说明

预置数据集需要包括文件(origin 目录)、标注文件(annotation 目录)、(versionFile 版本目录)和创建预置数据集 sql 文件以及 json 标签文件五部分。

图 16 导入预置数据集目录说明
图 16 导入预置数据集目录说明

操作步骤

1. 运行导入数据集脚本

开始运行:

图 17 运行脚本
图 17 运行脚本

按照提示输入待导入预置数据集的ID和已下载好的本地预置数据集的绝对路径,导入数据集的大小不同,导入时间不同,请耐心等待;

图 18 导入预置数据集
图 18 导入预置数据集

导入预置数据集成功:

图 19 导入预置数据集成功
图 19 导入预置数据集成功

2. 查看导入的预置数据集

进入 “数据集管理” 找到「预置数据集」查看导入的数据:

图 20 预置数据集列表
图 20 预置数据集列表

进入已导入的预置数据集详情页查看:

图 21 预置数据集详情
图 21 预置数据集详情
Last updated on