Bella OpenAPI 实时语音对话接口文档
目录
1. 概述
实时语音对话接口提供了一站式的语音识别、大模型对话和语音合成能力,支持用户通过麦克风进行实时语音输入,系统自动识别语音内容,调用大模型生成回复,并将回复内容转换为语音输出。整个过程通过 WebSocket 协议实现,具有低延迟、高实时性的特点。
1.1 功能特点
- 实时语音识别:支持用户实时语音输入,并将语音转换为文本
- 流式大模型对话:将识别的文本发送给大模型,获取流式回复
- 语音合成:将大模型回复转换为语音,实现自然的语音对话体验
- 全双工通信:基于 WebSocket 协议,支持全双工通信,实现真正的实时对话
1.2 应用场景
- 智能语音助手
- 客服机器人
- 语音交互系统
- 无障碍应用
- 车载语音系统
2. 接口规格
2.1 基本信息
- 接口路径:
/v1/audio/realtime或/v1/audio/asr/stream(只返回转录事件) - 协议:WebSocket
- 请求方式:GET
- 认证方式:Bearer Token(通过请求头
Authorization传递)