短语音识别
更新时间:2025-04-18
将60秒以内的语音精准识别为文字,可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。
如您对识别响应速度有更高的要求,可以使用短语音识别极速版接口,专有GPU服务集群,识别响应速度较标准版API提升2倍,识别准确率提升15%。
如您希望将大批量音频文件异步转写为文字,请使用音频文件转写接口,适合音视频字幕生产、批量录音质检、会议内容总结等场景。
POST
http://vop.baidu.com/server_api
- 音频格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式)。推荐pcm 采样率 :16000、8000(仅支持普通话模型) 固定值。 编码:16bit 位深的单声道。
- 百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。
- 对于m4a格式的文件(主要对象是微信小程序的录音):
- 仅支持单声道
- 采样率支持 16000、8000(仅支持普通话模型)
- CBR bitrates 24000-96000,推荐 48000
- 仅支持 AAC-LC, 不支持 例如 HE-AAC ,LD,ELD 等
- brand 仅支持 mp42:0, mini Version 0, 不支持 M4A
权限说明
调用本能力需要使用API Key进行鉴权认证。获取及使用API Key的流程请参考:APIKey鉴权说明文档
请求参数
Headers 参数
除公共头域外,还包含以下特殊头域
Content-Type
string
application/json
可选
authorization
string
使用API Key鉴权方式时,将API Key或短期API Key放在此处。注意需要在API Key信息前加上Bearer
。示例: Bearer bce-v3/ALTAK-DaIdq27UJ9Y2UEDIWx1EF/1c511d0576aee39sd59fd73983749109qq8ciq37
必选
Body 参数
format
string
语音文件的格式,pcm/wav/amr/m4a。不区分大小写。推荐pcm文件
必选
rate
integer
采样率,16000,固定值
必选
dev_pid
string
默认1537(普通话 输入法模型),1737(英语),1637(粤语),1837(四川话)
可选
channel
string
声道数,仅支持单声道,请填写固定值 1
必选
len
string
本地语音文件的的字节数,单位字节
必选
cuid
string
用户自定义的标识,用来区分用户,排查问题。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。
必选
speech
string
本地语音文件的的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。
必选
请求结构
POST http://vop.baidu.com/server_api
Authorization: API Key String
Content-Type: application/json
{
"format":"pcm",
"rate":16000,
"dev_pid":1537,
"channel":1,
"token":xxx,
"cuid":"baidu_workshop",
"len":4096,
"speech":"xxx", // xxx为 base64(FILE_CONTENT)
}
示例代码
请求示例
curl --location --request POST 'http://vop.baidu.com/server_api' \
--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
--header 'Content-Type: application/json' \
--data-raw '{
"format":"pcm", ##输入音频的格式
"rate":16000, ##采样率
"dev_pid":1537, ##识别模型id,1537为普通话
"channel":1, ##固定填入1
"cuid":"baidu_workshop", ##自定义用户id
"len":129600, ##音频文件字节数
"speech":"Base64data" ##base64编码后的音频文件
}'
返回响应
Headers 参数
除公共头域外,无其它特殊头域
返回参数
sn
string
语音数据唯一标识,系统内部产生。如果反馈及 debug 请提供 sn。
可选
err_no
错误码
可选
result
array
识别结果数组
可选
显示子属性
隐藏子属性
items
string
具体的识别结果
err_msg
string
错误码描述
可选
响应示例
{"err_no":0,
"err_msg":"success.",
"sn":"481D633F-73BA-726F-49EF-8659ACCC2F3D",
"result":["北京天气"]}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
- error_code:错误码。
- error_msg:错误描述信息,帮助理解和解决发生的错误。
错误码 | 错误信息 | 描述 |
---|---|---|
4 | Open api request limit reached | 集群超限额 |
6 | No permission to access data | 对控制台内app进行编辑,添加语音权限 |
14 | IAM Certification failed | IAM鉴权失败,建议用户参照文档自查生成sign的方式是否正确,或换用控制台中ak sk的方式调用 |
17 | Open api daily request limit reached | 每天流量超限额 |
18 | Open api qps request limit reached | 并发超限额 |
19 | Open api total request limit reached | 请求总量超限额 |
100 | Invalid parameter | 无效参数 |
110 | Access token invalid or no longer valid | Access Token失效 |
111 | Access token expired | Access token过期 |
错误码 | 用户输入 / 服务端 | 含义 | 一般解决方法 |
---|---|---|---|
3300 | 用户输入错误 | 输入参数不正确 | 请仔细核对文档及参照 demo,核对输入参数 |
3301 | 用户输入错误 | 音频质量过差 | 请上传清晰的音频 |
3302 | 用户输入错误 | 鉴权失败 | token字段校验失败。请使用正确的API_KEY 和 SECRET_KEY生成。 或并发、调用量超出限额。 或音频采样率不正确(可尝试更换为16k采样率)。 或者自训练平台 lm_id 不属于该账号 |
3303 | 服务端问题 | 百度服务器后端繁忙 | 有可能是原始音频质量过差。可以请将 api 返回结果和原始音频反馈至论坛或者 QQ 群 |
3304 | 用户请求超限 | 用户的请求并发超限 | 请降低识别 api 请求频率 (并发以 appId 计算,移动端如果共用则累计) |
3305 | 用户请求超限 | 用户的日 pv(日请求量)超限 | 请开通付费,购买调用量资源(账号内所有应用 APPID 共用调用量限额) |
3307 | 服务端问题 | 语音服务器后端识别出错问题 | 有可能是原始音频质量过差。可以将 api 返回结果和原始音频反馈至工单、论坛或者 QQ 群 |
3308 | 用户输入错误 | 音频过长 | 音频时长不超过 60s,请将音频时长截取为 60s 以下,特别是 amr 格式 |
3309 | 用户输入错误 | 音频数据问题 | 服务端无法将音频转为 pcm 格式,可能是长度问题,音频格式问题等。 请将输入的音频时长截取为 60s 以下,并核对下音频的编码,采样率 16000,单声道,小端序,16bits。 |
3310 | 用户输入错误 | 输入的音频文件过大 或 len 参数过大 | 文件内容过大,音频时长不能超过 60s |
3311 | 用户输入错误 | 采样率 rate 参数不在选项里 | 目前 rate 参数支持 16000、8000,填写其他值即会有此错误。 |
3312 | 用户输入错误 | 音频格式 format 参数不在选项里 | 目前格式仅仅支持 pcm,wav 或 amr,如填写 mp3 即会有此错误 |
3313 | 服务端问题 | 语音服务器解析超时 | 请将 api 返回结果反馈至工单、论坛或者 QQ 群 |
3314 | 用户输入错误 | 音频长度过短 | 用户的 len 参数小于等于 4 |
3315 | 服务端问题 | 语音服务器处理超时 | 请将 api 返回结果反馈至工单、论坛或者 QQ 群 |
3316 | 用户输入错误 | 音频转为 pcm 失败 | 使用 pcm 格式,或者确认 wav 和 amr 的采样率 16000,单声道。 wav 是否是 pcm 编码,小端序,16bits |