创建数据增强任务
更新时间:2025-04-16
功能介绍
用于创建数据增强任务。
使用说明
本文API支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用,调用流程请参考SDK安装及使用流程。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy
SDK调用
调用示例
1import os
2from qianfan import resources
3
4# 通过环境变量初始化认证信息
5# 使用安全认证AK/SK调用,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk,如何获取请查看https://cloud.baidu.com/doc/Reference/s/9jwvz2egb
6os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
7os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
8
9
10
11resp = resources.console.utils.call_action(
12 # 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
13 "/wenxinworkshop/enhance/create", "",
14 # 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
15 {
16 "name": "3334",
17 "isSelfInstruct": True,
18 "sourceDatasetId": "ds-9tff1q3h7ngdmgh4",
19 "destDatasetId": "ds-3tfe1q3g7ncdmsh2",
20 "devApiId": 1431,
21 "appId": 99999,
22 "numSeedFewshot": 6,
23 "numInstancesToGenerate": 200,
24 "similarityThreshold": 0.6
25 }
26
27)
28
29print(resp.body)
1package main
2import (
3 "context"
4 "fmt"
5 "os"
6 "github.com/baidubce/bce-qianfan-sdk/go/qianfan"
7)
8func main() {
9 // 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
10 os.Setenv("QIANFAN_ACCESS_KEY", "your_iam_ak")
11 os.Setenv("QIANFAN_SECRET_KEY", "your_iam_sk")
12
13 ca := qianfan.NewConsoleAction()
14
15 res, err := ca.Call(context.TODO(),
16 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
17 "/wenxinworkshop/enhance/create", "",
18 // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
19 map[string]interface{}{
20 "name": "3334",
21 "isSelfInstruct": true,
22 "sourceDatasetId": "ds-9tff1q3h7ngdmgh4",
23 "destDatasetId": "ds-3tfe1q3g7ncdmsh2",
24 "devApiId": 1431,
25 "appId": 14xxx,
26 "numSeedFewshot": 6,
27 "numInstancesToGenerate": 200,
28 "similarityThreshold": 0.6,
29 })
30 if err != nil {
31 panic(err)
32 }
33 fmt.Println(string(res.Body))
34
35}
1import com.baidubce.qianfan.Qianfan;
2import com.baidubce.qianfan.model.console.ConsoleResponse;
3import com.baidubce.qianfan.util.CollUtils;
4import com.baidubce.qianfan.util.Json;
5import java.util.Map;
6
7public class Dome {
8 public static void main(String args[]){
9 // 使用安全认证AK/SK鉴权,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
10 Qianfan qianfan = new Qianfan("your_iam_ak", "your_iam_sk");
11
12 ConsoleResponse<Map<String, Object>> response = qianfan.console()
13 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
14 .route("/wenxinworkshop/enhance/create")
15 // 需要传入参数的场景,可以自行封装请求类,或者使用Map.of()来构建请求Body
16 // Java 8可以使用SDK提供的CollUtils.mapOf()来替代Map.of()
17 // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
18 .body(CollUtils.mapOf(
19 "name", "3334",
20 "isSelfInstruct", true,
21 "sourceDatasetId", "ds-9tff1q3h7ngdmgh4",
22 "destDatasetId", "ds-3tfe1q3g7ncdmsh2",
23 "devApiId", 1431,
24 "appId", 999999,
25 "numSeedFewshot", 6,
26 "numInstancesToGenerate", 200,
27 "similarityThreshold", 0.6
28 ))
29 .execute();
30
31 System.out.println(Json.serialize(response));
32 }
33}
1import {consoleAction, setEnvVariable} from "@baiducloud/qianfan";
2
3// 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
4setEnvVariable('QIANFAN_ACCESS_KEY','your_iam_ak');
5setEnvVariable('QIANFAN_SECRET_KEY','your_iam_sk');
6
7async function main() {
8 //base_api_route:调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
9 //data:请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
10 const res = await consoleAction({base_api_route: '/wenxinworkshop/enhance/create', data: {
11 "name": "3334",
12 "isSelfInstruct": true,
13 "sourceDatasetId": "ds-9tff1q3h7ngdmgh4",
14 "destDatasetId": "ds-3tfe1q3g7ncdmsh2",
15 "devApiId": 1431,
16 "appId": 14xxx,
17 "numSeedFewshot": 6,
18 "numInstancesToGenerate": 200,
19 "similarityThreshold": 0.6
20 }
21 });
22
23 console.log(res);
24}
25
26main();
返回示例
1{
2 "log_id": "hfnfguqdesni42mk",
3 "result": {
4 "enhanceTaskId": "task-p2fqh6j75ytje7js"
5 },
6 "status": 200,
7 "success": True
8}
1{
2 "log_id": "hfnfguqdesni42mk",
3 "result": {
4 "enhanceTaskId": "task-p2fqh6j75ytje7js"
5 },
6 "status": 200,
7 "success": true
8}
1{
2 "log_id": "hfnfguqdesni42mk",
3 "result": {
4 "enhanceTaskId": "task-p2fqh6j75ytje7js"
5 },
6 "status": 200,
7 "success": true
8}
1{
2 log_id: 'hfnfguqdesni42mk',
3 result: {
4 enhanceTaskId: 'task-p2fqh6j75ytje7js'
5 },
6 status: 200,
7 success: true
8}
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
name | string | 是 | 增强任务名称 |
isSelfInstruct | bool | 是 | 是否self-instruct自监督,固定值为ture |
sourceDatasetId | string | 是 | 源数据集版本ID,注意: 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 |
destDatasetId | string | 是 | 目标数据集版本ID,注意: 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 |
devApiId | string | 是 | 可选值如下: · 1191:表示 EB3.5-8k · 1431:表示 ERNIE-Lite-8K · 1306:表示 ERNIE-4.0-8K · 1378:表示 ERNIE-Speed-8K |
appId | int | 是 | 应用ID,应用由用户创建 |
numSeedFewshot | int | 是 | 指令生成依赖样本数,说明: · 生成指令时需要从处理前数据集(种子池)选出的样本数量,实际数量可能根据模型允许输入的长度有所调整 · 取值范围:[1,10] |
numInstancesToGenerate | int | 是 | 生成样本数,说明: · 建议生成后数据集总样本数大于200,每个任务最多生成不超过2000条样本 · 取值范围:[1,5000] |
similarityThreshold | float | 是 | 过滤相似度阈值,说明: · 只有生成样本的ROUGE-L小于阈值的样本才会添加到种子池,阈值越低,样本重复概率越低 · 取值范围:[0,1] |
返回参数
名称 | 类型 | 描述 |
---|---|---|
log_id | string | 操作记录id |
result | object | 返回结果 |
status | int | 状态码 |
success | bool | 是否操作成功,说明: · true:成功 · false:失败 |
result说明
名称 | 类型 | 描述 |
---|---|---|
enhanceTaskId | string | 创建的数据增强任务ID |