音频文件转录接口文档
目录
接口描述
音频文件转录接口用于将音频文件转换为文本。该接口采用异步处理模式,通过callback_url接收转录完成的结果推送。
该接口适用于各种音频文件转录场景,如会议录音、讲座录音、客服通话等,支持说话人识别、语义断句、标点符号预测等高级功能。
请求
提交转录任务
HTTP 请求
POST /v1/audio/transcriptions/file
请求头
参数 | 类型 | 必填 | 描述 |
---|---|---|---|
Authorization | string | 是 | Bearer token,格式为 "Bearer YOUR_API_KEY" |
Content-Type | string | 是 | application/json |
请求体
参数 | 类型 | 必填 | 描述 |
---|---|---|---|
url | string | 是 | 文件URL,至少24小时内可访问(签名有效时长需保证) |
model | string | 是 | 要使用的转录模型 |
user | string | 是 | 表示最终用户的唯一标识符 |
callback_url | string | 是 | 转录完成后的回调地址 |
enable_words | boolean | 否 | 输出结果时是否返回分词信息,默认 true |
vocab_id | string | 否 | 词汇表ID,用于热词定制 |
channel_number | number | 否 | 声道数 |
language | string | 否 | 音频语言 |
hot_word | string | 否 | 热词,多个热词用逗号分隔 |
candidate | number | 否 | 候选结果数量 |
audio_mode | string | 否 | 音频模式 |
standard_wav | number | 否 | 是否标准WAV格式 |
language_type | number | 否 | 语言类型 |
trans_mode | number | 否 | 转录模式 |
eng_smoothproc | boolean | 否 | 英语平滑处理 |
eng_collogproc | boolean | 否 | 英语口语化处理 |
eng_vad_mdn | number | 否 | 英语VAD中值 |
eng_vad_margin | number | 否 | 英语VAD边距 |
eng_rlang | number | 否 | 英语语言模型 |
sample_rate | number | 否 | 音频采样率 |
enable_semantic_sentence_detection | boolean | 否 | 是否开启语义断句,默认 false |
enable_punctuation_prediction | boolean | 否 | 是否在输出结果中增加标点符号,默认 false |
max_end_silence | number | 否 | 最大结束静音时长 |
speaker_diarization | boolean | 否 | 说话人识别,默认 false |
speaker_number | number | 否 | 说话人数量 |
enable_vad | boolean | 否 | 是否启用语音活动检测 |
chunk_length | number | 否 | 音频块长度 |
查询转录结果
HTTP 请求
POST /v1/audio/transcriptions/file/result
请求头
参数 | 类型 | 必填 | 描述 |
---|---|---|---|
Authorization | string | 是 | Bearer token,格式为 "Bearer YOUR_API_KEY" |
Content-Type | string | 是 | application/json |
请求体
{
"task_id": "transcription-task-123456"
}
参数 | 类型 | 必填 | 描述 |
---|---|---|---|
task_id | string | 是 | 转录任务ID,由提交转录任务接口返回 |