创建数据集
更新时间:2025-04-16
功能介绍
本接口用于创建新的数据集,数据集创建完成后自带版本V1。
调用本接口和控制台创建数据集页面功能类似,如下图所示。
使用说明
本文API支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用,调用流程请参考SDK安装及使用流程。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy
SDK调用
示例(创建"Prompt+Response"类型数据集)
- 调用示例
创建"Prompt+Response"数据集,保存位置为平台共享存储。
1import os
2from qianfan import resources
3
4# 通过环境变量初始化认证信息
5# 使用安全认证AK/SK调用,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk,如何获取请查看https://cloud.baidu.com/doc/Reference/s/9jwvz2egb
6os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
7os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
8
9
10
11resp = resources.console.utils.call_action(
12 # 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
13 "/v2/dataset",
14 # 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
15 "CreateDataset",
16 # 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
17 {
18 "datasetName": "hello_dataset",
19 "dataFormat": "PromptResponse",
20 "storageType": "BOS",
21 "storagePath":"bos:/yourBucket/yourDir/"
22 }
23)
24
25print(resp.body)
1package main
2
3import (
4 "context"
5 "fmt"
6 "os"
7
8 "github.com/baidubce/bce-qianfan-sdk/go/qianfan"
9)
10
11func main() {
12 // 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
13 os.Setenv("QIANFAN_ACCESS_KEY", "your_iam_ak")
14 os.Setenv("QIANFAN_SECRET_KEY", "your_iam_sk")
15
16 ca := qianfan.NewConsoleAction()
17
18 res, err := ca.Call(context.TODO(),
19 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
20 "/v2/dataset",
21 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
22 "CreateDataset",
23 // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
24 map[string]interface{}{
25 "datasetName": "hello_dataset",
26 "dataFormat": "PromptResponse",
27 "storageType": "BOS",
28 "storagePath":"bos:/yourBucket/yourDir/",
29 })
30 if err != nil {
31 panic(err)
32 }
33 fmt.Println(string(res.Body))
34
35}
1import com.baidubce.qianfan.Qianfan;
2import com.baidubce.qianfan.model.console.ConsoleResponse;
3import com.baidubce.qianfan.util.CollUtils;
4import com.baidubce.qianfan.util.Json;
5import java.util.Map;
6
7public class Dome {
8 public static void main(String args[]){
9 // 使用安全认证AK/SK鉴权,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
10 Qianfan qianfan = new Qianfan("your_iam_ak", "your_iam_sk");
11
12 ConsoleResponse<Map<String, Object>> response = qianfan.console()
13 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
14 .route("/v2/dataset")
15 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
16 .action("CreateDataset")
17 // 需要传入参数的场景,可以自行封装请求类,或者使用Map.of()来构建请求Body
18 // Java 8可以使用SDK提供的CollUtils.mapOf()来替代Map.of()
19 // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
20 .body(CollUtils.mapOf(
21 "datasetName", "hello_dataset",
22 "dataFormat", "PromptResponse",
23 "storageType", "BOS",
24 "storagePath","bos:/yourBucket/yourDir/"
25 ))
26 .execute();
27
28 System.out.println(Json.serialize(response));
29 }
30}
1import {consoleAction, setEnvVariable} from "@baiducloud/qianfan";
2
3// 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
4setEnvVariable('QIANFAN_ACCESS_KEY','your_iam_ak');
5setEnvVariable('QIANFAN_SECRET_KEY','your_iam_sk');
6
7async function main() {
8
9 //base_api_route:调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
10 //action:调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
11 //data:请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
12 const res = await consoleAction({base_api_route: '/v2/dataset', action: 'CreateDataset', data: {
13 "datasetName": "hello_dataset",
14 "dataFormat": "PromptResponse",
15 "storageType": "BOS",
16 "storagePath":"bos:/yourBucket/yourDir/"
17 }
18 });
19
20 console.log(res);
21}
22
23main();
- 返回示例
1{
2 "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
3 "result": {
4 "versionId": "ds-xxx",
5 "datasetId": "dg-xxx",
6 "datasetName":"hello_dataset",
7 "versionNumber": 1,
8 "dataFormat": "PromptResponse",
9 "storageType": "BOS",
10 "storagePath": "bos:/yourBucket/yourDir/_system_/ds-4saih7rhmcqrp2gu/texts",
11 "creator":"accountName",
12 "createTime": "2023-10-25 16:16:38"
13 }
14}
1{
2 "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
3 "result": {
4 "versionId": "ds-xxx",
5 "datasetId": "dg-xxx",
6 "datasetName":"hello_dataset",
7 "versionNumber": 1,
8 "dataFormat": "PromptResponse",
9 "storageType": "BOS",
10 "storagePath": "bos:/yourBucket/yourDir/_system_/ds-4saih7rhmcqrp2gu/texts",
11 "creator":"accountName",
12 "createTime": "2023-10-25 16:16:38"
13 }
14}
1{
2 "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
3 "result": {
4 "versionId": "ds-xxx",
5 "datasetId": "dg-xxx",
6 "datasetName":"hello_dataset",
7 "versionNumber": 1,
8 "dataFormat": "PromptResponse",
9 "storageType": "BOS",
10 "storagePath": "bos:/yourBucket/yourDir/_system_/ds-4saih7rhmcqrp2gu/texts",
11 "creator":"accountName",
12 "createTime": "2023-10-25 16:16:38"
13 }
14}
1{
2 requestId: '1bef3f87-c5b2-4419-936b-50f9884f10d4',
3 result: {
4 versionId: 'ds-xxx',
5 datasetId: 'dg-xxx',
6 datasetName:'hello_dataset',
7 versionNumber: 1,
8 dataFormat: 'PromptResponse',
9 storageType: 'BOS',
10 storagePath: 'bos:/yourBucket/yourDir/_system_/ds-4saih7rhmcqrp2gu/texts',
11 creator:'accountName',
12 createTime: '2023-10-25 16:16:38'
13 }
14}
示例(创建"Prompt+Image"类型数据集)
- 调用示例
创建Prompt+Image类型数据集,保存位置为对象存储BOS(需开通),需填写存储所在的bosUri。
1import os
2from qianfan import resources
3
4# 通过环境变量初始化认证信息
5# 使用安全认证AK/SK调用,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk,如何获取请查看https://cloud.baidu.com/doc/Reference/s/9jwvz2egb
6os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
7os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
8
9
10
11resp = resources.console.utils.call_action(
12 # 调用本文API,该参数值为固定值,无需修改;对应HTTP调用文档-请求说明-请求地址的后缀
13 "/v2/dataset",
14 # 调用本文API,该参数值为固定值,无需修改;对应HTTP调用文档-请求说明-请求参数-Query参数的Action
15 "CreateDataset",
16 # 对应HTTP调用文档-请求说明-请求参数-Body参数,具体使用请查看Body参数说明,根据实际使用选择参数
17 {
18 "datasetName": "goodBye_dataset",
19 "dataFormat": "PromptImage",
20 "storagePath": "bos:/yourBucket/yourDir/",
21 "storageType": "BOS"
22 }
23)
24
25print(resp.body)
1package main
2
3import (
4 "context"
5 "fmt"
6 "os"
7
8 "github.com/baidubce/bce-qianfan-sdk/go/qianfan"
9)
10
11func main() {
12 // 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
13 os.Setenv("QIANFAN_ACCESS_KEY", "your_iam_ak")
14 os.Setenv("QIANFAN_SECRET_KEY", "your_iam_sk")
15
16 ca := qianfan.NewConsoleAction()
17
18 res, err := ca.Call(context.TODO(), "/v2/dataset", "CreateDataset", map[string]interface{}{
19 "datasetName": "goodBye_dataset",
20 "dataFormat": "PromptImage",
21 "storagePath": "bos:/yourBucket/yourDir/",
22 "storageType": "BOS",
23 })
24 if err != nil {
25 panic(err)
26 }
27 fmt.Println(string(res.Body))
28
29}
1import com.baidubce.qianfan.Qianfan;
2import com.baidubce.qianfan.model.console.ConsoleResponse;
3import com.baidubce.qianfan.util.CollUtils;
4import com.baidubce.qianfan.util.Json;
5import java.util.Map;
6
7public class Dome {
8 public static void main(String args[]){
9 // 使用安全认证AK/SK鉴权,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
10 Qianfan qianfan = new Qianfan("your_iam_ak", "your_iam_sk");
11
12 ConsoleResponse<Map<String, Object>> response = qianfan.console()
13 // 调用本文API,该参数值为固定值,无需修改;对应本文HTTP调用-请求说明-请求地址的后缀
14 .route("/v2/dataset")
15 // 调用本文API,该参数值为固定值,无需修改;对应本文HTTP调用-请求说明-请求参数-Query参数的Action
16 .action("CreateDataset")
17 // 需要传入参数的场景,可以自行封装请求类,或者使用Map.of()来构建请求Body
18 // Java 8可以使用SDK提供的CollUtils.mapOf()来替代Map.of()
19 // 对应本文HTTP调用-请求说明-请求参数-Body参数,具体使用请查看Body参数说明,根据实际使用选择参数
20 .body(CollUtils.mapOf(
21 "datasetName", "goodBye_dataset",
22 "dataFormat", "PromptImage",
23 "storagePath", "bos:/yourBucket/yourDir/",
24 "storageType", "BOS"
25 ))
26 .execute();
27
28 System.out.println(Json.serialize(response));
29 }
30}
1import {consoleAction, setEnvVariable} from "@baiducloud/qianfan";
2
3// 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
4setEnvVariable('QIANFAN_ACCESS_KEY','your_iam_ak');
5setEnvVariable('QIANFAN_SECRET_KEY','your_iam_sk');
6
7async function main() {
8 const res = await consoleAction({base_api_route: 'v2/dataset', action: 'CreateDataset', data: {
9 "datasetName": "goodBye_dataset",
10 "dataFormat": "PromptImage",
11 "storagePath": "bos:/yourBucket/yourDir/",
12 "storageType": "BOS"
13 }
14 });
15
16 console.log(res);
17}
18
19main();
- 返回示例
1{
2 "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
3 "result": {
4 "versionId": "ds-xxx",
5 "datasetId": "dg-xxx",
6 "datasetName": "goodBye_dataset",
7 "versionNumber": 1,
8 "dataFormat": "PromptImage",
9 "storageType": "BOS",
10 "storagePath": "bos:/yourBucket/yourDir/_system_/dataset/ds-xxx/images",
11 "creator":"accountName",
12 "createTime": "2023-11-02 14:50:30"
13 }
14}
1{
2 "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
3 "result": {
4 "versionId": "ds-xxx",
5 "datasetId": "dg-xxx",
6 "datasetName": "goodBye_dataset",
7 "versionNumber": 1,
8 "dataFormat": "PromptImage",
9 "storageType": "BOS",
10 "storagePath": "bos:/yourBucket/yourDir/_system_/dataset/ds-xxx/images",
11 "creator":"accountName",
12 "createTime": "2023-11-02 14:50:30"
13 }
14}
1{
2 "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
3 "result": {
4 "versionId": "ds-xxx",
5 "datasetId": "dg-xxx",
6 "datasetName": "goodBye_dataset",
7 "versionNumber": 1,
8 "dataFormat": "PromptImage",
9 "storageType": "BOS",
10 "storagePath": "bos:/yourBucket/yourDir/_system_/dataset/ds-xxx/images",
11 "creator":"accountName",
12 "createTime": "2023-11-02 14:50:30"
13 }
14}
1{
2 requestId: '1bef3f87-c5b2-4419-936b-50f9884f10d4',
3 result: {
4 versionId: 'ds-xxx',
5 datasetId: 'dg-xxx',
6 datasetName: 'goodBye_dataset',
7 versionNumber: 1,
8 dataFormat: 'PromptImage',
9 storageType: 'BOS',
10 storagePath: 'bos:/yourBucket/yourDir/_system_/dataset/ds-xxx/images',
11 creator:'accountName',
12 createTime: '2023-11-02 14:50:30'
13 }
14}
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
datasetName | string | 是 | 数据集名称,示例:"helloDataset" |
dataFormat | string | 是 | 数据格式,可选值如下: · PromptResponse:表示Prompt+Response · Role:表示Role(user+assistant) · SFT_FIM:表示Prefix+Suffix+Middle数据格式 · Text:表示纯文本 · DPO_PromptChosenRejected:表示DPO或SimPO数据格式 · KTO_PromptChosenRejected:表示KTO数据格式 · PromptSortedresponses:表示Prompt+多Response排序 · Prompt:表示Prompt集 · PromptImage:表示Prompt+图片 · PromptImageResponse:表示Prompt+Image+Response |
storageType | string | 是 | 存储类型,可选值: · BOS:表示对象存储BOS · sysStorage:表示平台共享存储 |
storagePath | string | 否 | 存储类型为对象存储BOS时,说明: (1)对应的完整存储路径即: bos:/bucket/dir (2)示例:将数据集存储到 bucket:yourBucket,dir:yourDir/text需填写的bosPath为 bos:/yourBucket/yourDir/text/ ,注意:以左斜杠结尾 |
返回参数
名称 | 类型 | 描述 |
---|---|---|
requestId | string | 请求ID |
result | object | 请求结果,请求成功时返回 |
code | string | 错误码,错误时返回 |
message | string | 错误信息,请求失败时返回 |
result说明
名称 | 类型 | 说明 |
---|---|---|
datasetId | string | 数据集ID |
versionId | string | 数据集版本ID |
versionNumber | int | 数据集版本序号 |
datasetName | string | 数据集名称 |
dataFormat | string | 数据格式,说明: · PromptResponse:表示Prompt+Response · Role:表示Role(user+assistant) · SFT_FIM:表示Prefix+Suffix+Middle数据格式 · Text:表示纯文本 · DPO_PromptChosenRejected:表示DPO或SimPO数据格式 · KTO_PromptChosenRejected:表示KTO数据格式 · PromptSortedresponses:表示Prompt+多Response排序 · Prompt:表示Prompt集 · PromptImage:表示Prompt+图片 · PromptImageResponse:表示Prompt+Image+Response |
storageType | string | 存储类型,说明: · BOS:表示对象存储BOS · sysStorage:表示平台共享存储 |
storagePath | string | 存储类型为对象存储BOS时,对应的完整存储路径 |
creator | string | 创建人 |
createTime | string | 创建时间,格式:YYYY-MM-DD hh:mm:ss |