短语音识别

短语音识别

更新时间：2025-04-18

将60秒以内的语音精准识别为文字，可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。

如您对识别响应速度有更高的要求，可以使用短语音识别极速版接口，专有GPU服务集群，识别响应速度较标准版API提升2倍，识别准确率提升15%。

如您希望将大批量音频文件异步转写为文字，请使用音频文件转写接口，适合音视频字幕生产、批量录音质检、会议内容总结等场景。

POST

http://vop.baidu.com/server_api

调试

音频格式支持：pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）、m4a（压缩格式）。推荐pcm 采样率：16000、8000（仅支持普通话模型）固定值。编码：16bit 位深的单声道。
百度服务端会将非pcm格式，转为pcm格式，因此使用wav、amr、m4a会有额外的转换耗时。
对于m4a格式的文件（主要对象是微信小程序的录音）：
- 仅支持单声道
- 采样率支持 16000、8000（仅支持普通话模型）
- CBR bitrates 24000-96000，推荐 48000
- 仅支持 AAC-LC，不支持例如 HE-AAC ，LD，ELD 等
- brand 仅支持 mp42:0, mini Version 0, 不支持 M4A

权限说明

调用本能力需要使用API Key进行鉴权认证。获取及使用API Key的流程请参考：APIKey鉴权说明文档

请求参数

Headers 参数

除公共头域外，还包含以下特殊头域

Content-Type string

application/json

可选

authorization string

使用API Key鉴权方式时，将API Key或短期API Key放在此处。注意需要在API Key信息前加上Bearer 。示例： Bearer bce-v3/ALTAK-DaIdq27UJ9Y2UEDIWx1EF/1c511d0576aee39sd59fd73983749109qq8ciq37

必选

Body 参数

format string

语音文件的格式，pcm/wav/amr/m4a。不区分大小写。推荐pcm文件

必选

rate integer

采样率，16000，固定值

必选

dev_pid string

默认1537（普通话输入法模型），1737（英语），1637（粤语），1837（四川话）

可选

channel string

声道数，仅支持单声道，请填写固定值 1

必选

len string

本地语音文件的的字节数，单位字节

必选

cuid string

用户自定义的标识，用来区分用户，排查问题。建议填写能区分用户的机器 MAC 地址或 IMEI 码，长度为60字符以内。

必选

speech string

本地语音文件的的二进制语音数据，需要进行base64 编码。与len参数连一起使用。

必选

请求结构

POST http://vop.baidu.com/server_api 
Authorization: API Key String
Content-Type: application/json
{
    "format":"pcm",
    "rate":16000,
    "dev_pid":1537,
    "channel":1,
    "token":xxx,
    "cuid":"baidu_workshop",
    "len":4096,
    "speech":"xxx", // xxx为 base64（FILE_CONTENT）
}

示例代码

请求示例

curl --location --request POST 'http://vop.baidu.com/server_api' \
--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
--header 'Content-Type: application/json' \
--data-raw '{ 
    "format":"pcm",    ##输入音频的格式
    "rate":16000,      ##采样率
    "dev_pid":1537,    ##识别模型id，1537为普通话
    "channel":1,       ##固定填入1
    "cuid":"baidu_workshop",     ##自定义用户id
    "len":129600,     ##音频文件字节数
    "speech":"Base64data"    ##base64编码后的音频文件
    }'

返回响应

Headers 参数

除公共头域外，无其它特殊头域

返回参数

sn string

语音数据唯一标识，系统内部产生。如果反馈及 debug 请提供 sn。

可选

err_no

错误码

可选

result array

识别结果数组

可选

显示子属性隐藏子属性

items string

具体的识别结果

err_msg string

错误码描述

可选

响应示例

{"err_no":0,
 "err_msg":"success.",
 "sn":"481D633F-73BA-726F-49EF-8659ACCC2F3D",
 "result":["北京天气"]}

错误码

若请求错误，服务器将返回的JSON文本包含以下参数：

error_code：错误码。
error_msg：错误描述信息，帮助理解和解决发生的错误。

错误码	错误信息	描述
4	Open api request limit reached	集群超限额
6	No permission to access data	对控制台内app进行编辑，添加语音权限
14	IAM Certification failed	IAM鉴权失败，建议用户参照文档自查生成sign的方式是否正确，或换用控制台中ak sk的方式调用
17	Open api daily request limit reached	每天流量超限额
18	Open api qps request limit reached	并发超限额
19	Open api total request limit reached	请求总量超限额
100	Invalid parameter	无效参数
110	Access token invalid or no longer valid	Access Token失效
111	Access token expired	Access token过期

错误码	用户输入 / 服务端	含义	一般解决方法
3300	用户输入错误	输入参数不正确	请仔细核对文档及参照 demo，核对输入参数
3301	用户输入错误	音频质量过差	请上传清晰的音频
3302	用户输入错误	鉴权失败	token字段校验失败。请使用正确的API_KEY 和 SECRET_KEY生成。或并发、调用量超出限额。或音频采样率不正确（可尝试更换为16k采样率）。或者自训练平台 lm_id 不属于该账号
3303	服务端问题	百度服务器后端繁忙	有可能是原始音频质量过差。可以请将 api 返回结果和原始音频反馈至论坛或者 QQ 群
3304	用户请求超限	用户的请求并发超限	请降低识别 api 请求频率（并发以 appId 计算，移动端如果共用则累计）
3305	用户请求超限	用户的日 pv（日请求量）超限	请开通付费，购买调用量资源（账号内所有应用 APPID 共用调用量限额）
3307	服务端问题	语音服务器后端识别出错问题	有可能是原始音频质量过差。可以将 api 返回结果和原始音频反馈至工单、论坛或者 QQ 群
3308	用户输入错误	音频过长	音频时长不超过 60s，请将音频时长截取为 60s 以下，特别是 amr 格式
3309	用户输入错误	音频数据问题	服务端无法将音频转为 pcm 格式，可能是长度问题，音频格式问题等。请将输入的音频时长截取为 60s 以下，并核对下音频的编码，采样率 16000，单声道，小端序，16bits。
3310	用户输入错误	输入的音频文件过大或 len 参数过大	文件内容过大，音频时长不能超过 60s
3311	用户输入错误	采样率 rate 参数不在选项里	目前 rate 参数支持 16000、8000，填写其他值即会有此错误。
3312	用户输入错误	音频格式 format 参数不在选项里	目前格式仅仅支持 pcm，wav 或 amr，如填写 mp3 即会有此错误
3313	服务端问题	语音服务器解析超时	请将 api 返回结果反馈至工单、论坛或者 QQ 群
3314	用户输入错误	音频长度过短	用户的 len 参数小于等于 4
3315	服务端问题	语音服务器处理超时	请将 api 返回结果反馈至工单、论坛或者 QQ 群
3316	用户输入错误	音频转为 pcm 失败	使用 pcm 格式，或者确认 wav 和 amr 的采样率 16000，单声道。 wav 是否是 pcm 编码，小端序，16bits

百度智能云

千帆AI应用开发者中心-API参考 qianfan-api

千帆AI应用开发者中心-API参考 qianfan-api

权限说明

请求参数

示例代码

返回响应

错误码