语音合成接口文档
目录
接口描述
根据输入的文本生成语音。支持多种声音和格式,并且支持流式响应,适用于实时语音合成场景。
请求
HTTP 请求
POST /v1/audio/speech
请求体
参数 | 类型 | 必填 | 描述 |
---|---|---|---|
input | string | 是 | 要生成语音的文本。最大长度为 4096 个字符 |
model | string | 是 | 要使用的 TTS 模型,例如:tts-1, tts-1-hd 或 gpt-4o-mini-tts |
voice | string | 是 | 生成语音时使用的声音。支持的声音根据模型确定。 |
response_format | string | 否 | 音频格式。支持的格式有 mp3, opus, aac, flac, wav 和 pcm。默认值根据模型类型确定 |
speed | number | 否 | 生成的音频速度。可选值范围从 0.25 到 4.0。默认为 1.0 |
stream | boolean | 否 | 是否启用流式响应。默认为 true |
sample_rate | integer | 否 | 音频采样率。默认根据模型和格式自动选择最佳值 |
user | string | 否 | 表示最终用户的唯一标识符 |