准备数据

在「一站式开发平台」上进行数据管理时,首先您需要一个数据集,后续对于数据集的操作,比如导入数据、添加标签、自动标注、版本发布都基于数据集。

未标注数据

准备标签

  • 「一站式平台」提供了常见的数据标签作为预置标签,方便用户按需使用
数据类型标注类型预置标签组说明
 文本  文本分类  IMDB文本情感分类  基于 IMDB 影评的文本标签,分为 positive/negative 

准备数据

  • 数据集名称只支持中文、英文、数字、下划线和英文横杠
  • 如果文本数据集关联的不是预置标签组,「自动标注」功能可能无法使用
  • 导入数据之前请先确认文本编码格式为 UTF-8 的编码格式
  • 文件格式: .txt, 单个文件不大于 5 MB,单次上传限制 5000 个文本文件
  • 上传文件数量过大推荐使用数据集脚本工具

本地已标注数据集

  • 文本格式支持 txt,位于 origin 目录下,不支持目录嵌套
  • 本地数据集需要包括图片(origin 目录)、标注文件(annotation 目录)和标签文件三部分
  • 标注文件为 json 格式,位于 annotation 目录下,必须和文件同名(如果不存在标注,可不上传),不支持目录嵌套
  • 标签文件为 json 格式,命名要求为 label_{name}.json,其中 name 为标签组名称,不能与系统已有标签组重名
  • 导入的文件名称不能重复

目录说明

本地数据集需要包括图片(origin 目录)、标注文件(annotation 目录)和标签文件三部分。

图 1 导入数据集目录说明
图 1 导入数据集目录说明

标签文件

格式:

name: 名称
color: 颜色(16进制编码)

详细示例:

[{
"name": "negtive movie review",
"color": "#ffbb96"
},
{
"name": "positive movie review",
"color": "#fcffe6"
}]

标注文件

格式:

name: 对应标签名称
score:置信分数(0-1)

详细示例:

[{"name":"negtive movie review","score":1}]
Last updated on