戴银镯子变黑是什么原因| 女人内心强大说明什么| 一览无余是什么意思| 血糖高的人早餐吃什么好| 迫切是什么意思| 中联办是什么级别| 6.25什么星座| 孙权为什么不北伐| 粉刺是什么| 什么叫脑白质病变| 为什么榴莲那么贵| 凌晨两点半是什么时辰| 左眼屈光不正是什么意思| 三伏天什么时候开始| 下午3点到5点是什么时辰| 红眼鱼是什么鱼| 吉代表什么生肖| 什么叫淋巴结| 暗送秋波是什么意思| 心肌缺血吃什么中成药| 蜂胶有什么作用和功效| 气血不足吃什么水果| 蝎子吃什么| geya是什么牌子的手表| 正月初九是什么星座| 睡觉睁眼睛是什么原因| 玄关挂什么装饰画好| 11月18日是什么星座| 补气血吃什么药效果好| 什么时候立夏| 活血是什么意思| 虎毒不食子什么意思| 办护照需要什么资料| 性功能障碍挂什么科| 什么是人| 什么是善良| 什么原因引起尿路感染| 大智若愚什么意思| 西皮是什么皮| 脚底冰凉是什么原因| 姓贾的男孩取什么名字好| 97年出生属什么| 勾芡是什么意思| b型钠尿肽测定是什么检查| 两个人可以玩什么游戏| 人工虎骨粉是什么做的| 什么时候测血压最准| 慢性前列腺炎吃什么药| 下肢水肿是什么原因| 芝士可以做什么美食| mi医学上是什么意思| 身上长癣是什么原因| zoom什么意思| 血清和血浆有什么区别| 八月八号什么星座| a型rh阳性是什么意思| 麝是什么动物| 饱和度是什么意思| 心境障碍是什么病| 骨质增生是什么症状| 夏天喝什么| 抹茶是什么茶| 蟹爪兰用什么肥料最好| 7月1日什么星座| 五月二十五是什么星座| 试纸一深一浅说明什么| 梦见自己在洗澡是什么意思| 嘴下面起痘是什么原因| 病毒性心肌炎吃什么药| 韭菜什么时候种最合适| 补充b族维生素有什么好处| 么么叽是什么意思| 什么食物高蛋白含量高| 顶到子宫是什么感觉| 肠胃炎吃什么消炎药| 多梦吃什么药效果最好| 地什么人什么| 溺水是什么感觉| bml是什么意思| 二次报销需要什么条件| 孕妇吃什么胎儿智商高| 什么是淋巴| 发什么发什么| 1931年属相是什么| 米醋是什么| 一百万存款算什么水平| 梦见自己嫁人了预示着什么| 喝黑咖啡有什么好处| 格桑花的花语是什么| 防微杜渐是什么意思| chloe是什么意思| 旬空是什么意思| 经常打哈欠是什么原因| 海参什么人不能吃| 纱布是什么材质| 腰酸是什么原因引起的| 星座之王是什么座| 脸长的人适合什么发型| 梦见楼塌了是什么意思| 腿部抽筋是什么原因引起的| 胃痛吃什么| 米粉是用什么做出来的| 活动性肺结核是什么意思| 舌苔白厚腻吃什么药见效快| 生快是什么意思| fila是什么牌子| 中国国鸟是什么鸟| 下火吃什么药| 氢化油是什么东西| 半盏流年是什么意思| 本命年红内衣什么时候穿| 泡打粉是什么| 10.25是什么星座| 吃干饭是什么意思| 中国属于什么半球| 丑时属什么| 为什么空调| 血燕是什么| 培坤丸有什么作用功效| 六月十四号是什么星座| 皮肤暗黄是什么原因| 1月23号什么星座| 流鼻血是什么原因| 贫血吃什么药补血最快| 身上长血痣是什么原因引起的| 18年是什么年| 老有眼屎是什么原因| 早上起来不晨勃是什么原因| 吃什么败火| 恶心想吐吃什么药好| 谷草谷丙比值偏高说明什么| 农历8月15是什么节日| 男命食神代表什么| 上火是什么症状| 弥月之喜是什么意思| 妇科ph值是什么意思| 维生素e有什么作用| 嗜酸性粒细胞是什么| 身上肉疼是什么原因| 9月23日是什么星座| 脚肿什么病| tv是什么意思| 兔子拉稀是什么原因| 割包皮应该挂什么科| 皮肤过敏有什么妙招| 腰痛看什么科| 基因检测是什么意思| 前列腺增大伴钙化灶是什么意思| 沉香有什么作用与功效| 去鱼腥味最好的方法是什么| nuxe是什么牌子护肤品| 1988属什么生肖| 宫腔线分离是什么意思| 十年什么婚| 心颤是什么症状| 种草什么意思| 农历11月18日是什么星座| 玉竹是什么| 肾盂是什么意思| 功能性子宫出血是什么原因造成的| 遮羞布是什么意思| 湿疹涂什么药| 不够时间好好来爱你是什么歌| 再接再励是什么意思| 风湿挂什么科室| 娇羞是什么意思| 什么叫三焦| 孕晚期白细胞高是什么原因| 阳历6月21日是什么星座| 甲状腺球蛋白低是什么意思| 教育局局长是什么级别| 鸿运当头什么意思| 红头文件是什么意思| 嗓子干吃什么药| 左侧头皮发麻是什么原因| 胆红素高说明什么| 用盐水洗脸有什么效果| 尿检4个加号什么意思| 震卦代表什么| 什么样的雪莲| 为什么怀孕了就不来月经了| 周传雄得了什么病| 氯低是什么原因| 乙肝什么症状| hennessy是什么酒价格多少| 什么叫重本大学| 老年人尿血是什么原因| 生抽是什么| 瘦人吃什么长胖| 梦见种地是什么意思| 吃燕窝有什么功效| 跃跃欲试什么意思| 胃灼热烧心吃什么药| 蹉跎是什么意思| 汾酒是什么香型| 女人梦见自己掉牙齿是什么征兆| 脸上爱出汗是什么原因| 强迫症是什么| 什么是偏光镜| 淋巴肿了吃什么消炎药| 市长是什么级别| 血沉是查什么病的| 舌苔白吃什么药| 三伏天吃什么好| 十二月十四日是什么星座| 妇科做活检是什么意思| 去湿气吃什么药| 胃穿孔是什么原因引起的| 去加一笔是什么字| 没有白带是什么原因| 鹿查什么部首| 恐龙是什么时候灭绝| 沙棘有什么作用| 头发发黄是什么原因造成的| 有趣的什么填空| 多囊为什么要跳绳而不是跑步| 听字五行属什么| 82年是什么年| 地藏菩萨的坐骑是什么| 胃底腺息肉是什么意思| 不加热血清反应素试验是什么| 孩子为什么会得抽动症| meq是什么单位| 胃酸胃烧心吃什么药| 2043年是什么年| 护理是做什么的| 新生儿用什么奶粉好| 有容乃大什么意思| 手上长水泡是什么原因| 角色扮演是什么意思| 女人辟邪带什么最好| bosco是什么意思| 儿童过敏性皮炎用什么药膏| 10月4号是什么星座| 海绵宝宝是什么生物| 干酪是什么| 母亲节做什么| 西游记有什么故事| 冻结账户需要什么条件| rng是什么意思| 耳朵痒用什么药最有效| 吃维生素b2有什么好处| 眼皮跳是什么原因引起的| 前列腺炎是什么引起的| 前列腺炎吃什么中成药| 什么的勇气| 低压高是什么原因引起的| 早上起床腰疼是什么原因| 梦见自己化妆是什么意思| 甲钴胺有什么副作用| 查黄体酮做什么检查| 高考早点吃什么好| hr是什么职业| 判处死刑缓期二年执行是什么意思| 女性多囊是什么意思| poscer是什么牌子| 小肠火吃什么药效果快| 球迷是什么意思| 酷暑难当是什么意思| 周星驰为什么不结婚| 人加三笔是什么字| 意难平什么意思| 五代十国是什么意思| 十指不沾阳春水什么意思| 百度
资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

68岁老人赴死海游玩溺亡 旅行社被判赔27万

接口描述

百度端到端语音语言大模型基于业内首创的Cross-Attention跨模态语音大模型,具备极速响应、拟人音色,实现真人级别语音对话交互。极致共情、超高双商,支持深度需求理解与复杂任务执行。广泛应用于实时语音交互的情感陪伴、社交娱乐以及知识问答等场景。请点击链接进入端到端语音大模型详情。

申请试用

本接口处于邀测阶段,如需使用,请先提交合作咨询,或者提交工单,提供公司名称、Cloud ID、应用场景,工作人员协助开通权限后方可使用。

产品优势

超低时延:基于业内创新的Cross-Attention技术,在对话过程中将用户等待时长从行业常见的3-5秒大幅缩短至1秒左右,实现了比拟真人对话的即时响应速度,树立行业标杆。
极致共情:基于真正的端到端跨模态语音大模型,能够感知原始语音携带的情绪与语气信息,充分理解用户意图与情境要求,更好地服务情感陪伴、 社交娱乐等场景。
超拟人音色:合成前端融入大语言模型,成就高自然度、高表现力的语音合成系统,使合成音频听感更加自然流畅,语气更加符合情境,情感更加接近真人,语调更加具有韵律。

接口调用详情

交互流程

79d54b3b3c405ed8a4e6f701644e6cda.png

response事件交互

41a84ad036f65574aedf4be18e92127e.png

接口说明

请求地址

请求地址:wss://aip.baidubce.com/ws/2.0/speech/v1/realtime

认证鉴权

支持 API Key 和 access_token 两种方式,具体请参考鉴权认证机制

请求参数

URL中放置请求参数,参数如下:

参数名称 类型 是否必填 说明
model string 必填 模型名称,目前支持audio-realtime

示例:wss://aip.baidubce.com/ws/2.0/speech/v1/realtime?model=audio-realtime


客户端事件

session.update

事件描述

客户端session.update事件用于更新会话的默认配置,服务端以session.updated包含完整有效配置的事件进行响应

事件参数

参数名称 类型 是否必填 说明
type string 必填 事件类型,必须是session.update
event_id string 可选 事件唯一标识
session UpdateSession 必填 会话配置

示例

{
    "type": "session.update",
    "session": {
        "input_audio_transcription": {
            "model": "default"
        }
    }
}

input_audio_buffer.append

事件描述

客户端input_audio_buffer.append事件用于将音频字节附加到输入音频缓冲区

事件参数

参数名称 类型 是否必填 说明
type string 必填 事件类型,必须是input_audio_buffer.append
event_id string 可选 事件唯一标识
audio string 必填 Base64 编码的音频字节

示例

{
    "type": "input_audio_buffer.append",
    "audio": "audio_base64"
}

服务端事件

session.created

事件描述

服务端session.created事件是建立新连接时的第一个服务器事件,此事件会使用默认会话配置创建并返回一个新会话

事件参数

参数名称 类型 说明
type string 事件类型,必须是session.created
event_id string 事件唯一标识
session Session 会话配置

示例

{
    "type": "session.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_Hjr7Au95",
    "session": {
        "id": "sess_ywqGIVMsrQKh8jY4WhYZ",
        "object": "realtime.session", 
        "expires_at": 1752218581, 
        "input_audio_format": "pcm16", 
        "input_audio_noise_reduction": null, 
        "input_audio_transcription": null, 
        "instructions": "", 
        "max_response_output_tokens": "inf", 
        "modalities": [
            "text",
            "audio"
        ], 
        "model": "audio-realtime", 
        "output_audio_format": "pcm16", 
        "speed": 1, 
        "temperature": 0.8, 
        "tool_choice": "auto", 
        "tools": [], 
        "tracing": null, 
        "turn_detection": {
            "type": "server_vad", 
            "threshold": 0.5, 
            "prefix_padding_ms": 300, 
            "silence_duration_ms": 200, 
            "create_response": true, 
            "interrupt_response": true
            }, 
        "voice": "default"
        }
}

session.updated

事件描述

服务端session.updated对客户端用于更新会话默认配置的session.update事件进行响应,响应事件包含完整有效配置

事件参数

参数名称 类型 说明
type string 事件类型,必须是session.updated
event_id string 事件唯一标识
session Session 会话配置

示例

{
    "type": "session.updated", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_hSIhy0aC", 
    "session": {
        "id": "sess_ywqGIVMsrQKh8jY4WhYZ", 
        "object": "realtime.session", 
        "expires_at": 1752218581, 
        "input_audio_format": "pcm16", 
        "input_audio_noise_reduction": null, 
        "input_audio_transcription": {
            "model": "default", 
            "language": null,
            "prompt": null
        }, 
        "instructions": "", 
        "max_response_output_tokens": "inf", 
        "modalities": [
            "text",
            "audio"
        ], 
        "model": "audio-realtime", 
        "output_audio_format": "pcm16", 
        "speed": 1, 
        "temperature": 0.8, 
        "tool_choice": "auto",
        "tools": [], 
        "tracing": null, 
        "turn_detection": {
            "type": "server_vad", 
            "threshold": 0.5, 
            "prefix_padding_ms": 300, 
            "silence_duration_ms": 200, 
            "create_response": true, 
            "interrupt_response": true
        }, 
        "voice": "default"
    }
}

conversation.created

事件描述

会话创建后,立即返回服务端conversation.created事件

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.created
event_id string 事件唯一标识
conversation Conversation 会话资源

示例

{
    "type": "conversation.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_bt89NXfx", 
    "conversation": {
        "id": "conv_auVpdUi6cvWu5ANDjL25", 
        "object": "realtime.conversation"
        }
}

conversation.item.created

事件描述

客户端发过来的音频已加入到对话中时,返回conversation.item.created服务端事件

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.created
event_id string 事件唯一标识
previous_item_id string 在对话中此项目之前的项目的 ID,创建的首个项目该值为null
item ConversationItem 创建的消息

示例

{
    "type": "conversation.item.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_CklwHSkg", 
    "previous_item_id": null, 
    "item": {
        "id": "item_ywqGIVMsrQKh8jY4WhYZ_001", 
        "object": "realtime.item", 
        "type": "message", 
        "status": "completed", 
        "role": "user", 
        "content": [{
            "type": "input_audio", 
            "transcript": "今天天气怎么样?"
            }]
        }
}

conversation.item.input_audio_transcription.delta

事件描述

输入音频对应的ASR识别结果

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.input_audio_transcription.delta
event_id string 事件唯一标识
item_id string 用户消息项目的 ID
content_index integer 默认0
delta string 识别文本

示例

{
    "type": "conversation.item.input_audio_transcription.delta", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_8o0XL7DD", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001", 
    "content_index": 0, 
    "delta": "今"
}

conversation.item.input_audio_transcription.completed

事件描述

服务端conversation.item.input_audio_transcription.completed事件是将语音的音频转录写入音频缓冲区的结果

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.input_audio_transcription.completed
event_id string 事件唯一标识
item_id string 包含音频的用户消息项目的 ID
content_index integer 包含音频的内容部分的索引
transcript string 转录出的文本

示例

{
    "type": "conversation.item.input_audio_transcription.completed", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_sCk3x7cv", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001", 
    "content_index": 0, 
    "transcript": "今天天气怎么样?"
}

conversation.item.input_audio_transcription.failed

事件描述

当配置了输入音频转录,并且用户消息的转录请求失败时,会返回服务器conversation.item.input_audio_transcription.failed事件。此事件与其他事件分开,error以便客户端可以识别相关项目

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.input_audio_transcription.failed
event_id string 事件唯一标识
item_id string 用户消息项目的ID
content_index integer 包含音频的内容部分的索
error Error 转录错误的详细信息。

示例

{
    "type": "conversation.item.input_audio_transcription.failed",
    "event_id": "event_Ula21nRHDN0DDc4GT280_3f38VTVO",
    "item_id": "item_Ula21nRHDN0DDc4GT280_001",
    "content_index": 0,
    "error": {
        "type": "server_error",
        "code": "internal",
        "message": "error message"
    }
}

input_audio_buffer.committed

事件描述

当输入音频缓冲区提交时,返回服务端事件input_audio_buffer.committed

事件参数

参数名称 类型 说明
type string 事件类型,必须为input_audio_buffer.committed
event_id string 事件唯一标识
previous_item_id string 在对话中此项目之前的项目的 ID,创建的首个项目该值为null
item_id string 创建消息项目的ID

示例

{
    "type": "input_audio_buffer.committed", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_kyvsH2Ur", 
    "previous_item_id": null, 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001"
}

input_audio_buffer.speech_started

事件描述

当在音频缓冲区中检测到语音时,在server_vad模式下返回服务端input_audio_buffer.speech_started事件

事件参数

参数名称 类型 说明
type string 事件类型必须是input_audio_buffer.speech_started
event_id string 事件唯一标识
item_id string 服务端检测到客户端会话时,语音停止时会创建的用户消息项的ID

示例

{
    "type": "input_audio_buffer.speech_started", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_W3Zas9hP", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001"
}

input_audio_buffer.speech_stopped

事件描述

当服务端检测到音频缓冲区中的语音结束时,返回input_audio_buffer.speech_stopped服务端事件

事件参数

参数名称 类型 说明
type string 事件类型,必须是input_audio_buffer.speech_stopped
event_id string 事件唯一标识
item_id string 用户消息项目的 ID

示例

{
    "type": "input_audio_buffer.speech_stopped", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_s0ROBCxD", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001"
}

response.created

事件描述

当初次响应被创建时,会返回服务端response.created事件。这是响应创建的第一个事件,响应的初始状态为in_progress

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.created
event_id string 事件唯一标识
response Response 响应对象

示例

{
    "type": "response.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_nclqvTp", 
    "response": {
        "id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
        "object": "realtime.response", 
        "status": "in_progress", 
        "status_details": {
            "type": "in_progress"
        }, 
        "output": [], 
        "conversation_id": "conv_auVpdUi6cvWu5ANDjL25", 
        "modalities": [
            "text",
            "audio"
        ], 
        "voice": "default", 
        "output_audio_format": "pcm16", 
        "temperature": 0.8, 
        "max_output_tokens": "inf"
        }
}

response.done

事件描述

当响应流式传输完成后,无论最终状态如何,会返回服务器事件response.done,事件中包含的响应对象包含响应中的所有输出项,但会省略原始音频数据

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.done
response Response 响应对象

示例

{
    "type": "response.done", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_07u3tDT3", 
    "response": {
        "id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
        "object": "realtime.response", 
        "status": "cancelled", 
        "status_details": {
            "type": "cancelled", 
            "reason": "turn_detected"
        }, 
        "output": [{
            "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
            "object": "realtime.item", 
            "type": "message", 
            "status": "incomplete", 
            "role": "assistant", 
            "content": [{
                "type": "audio", 
                "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
            }]
        }], 
        "conversation_id": "conv_auVpdUi6cvWu5ANDjL25", 
        "modalities": [
            "text",
            "audio"
        ], 
        "voice": "default", 
        "output_audio_format": "pcm16", 
        "temperature": 0.8, 
    "max_output_tokens": "inf"
    }
}

response.output_item.added

事件描述

response.output_item.added在响应生成期间创建新项目消息

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.output_item.added
event_id string 事件唯一标识
response_id string 该项目所属的响应的 ID
output_index integer 响应中输出项的索引
item ConversationItem 已添加的项目

示例

{
    "type": "response.output_item.added", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_yvrV5UAs", 
    "response_id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
    "output_index": 0, 
    "item": {
        "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
        "object": "realtime.item", 
        "type": "message", 
        "status": "in_progress", 
        "role": "assistant", 
        "content": []
        }
}

response.output_item.done

事件描述

当项目流式传输完成时或响应被中断、不完整或取消时,将返回此服务器事件response.output_item.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.output_item.added
event_id string 事件唯一标识
response_id string 该项目所属的响应的 ID
output_index integer 响应中输出项的索引
item ConversationItem 已添加的项目

示例

{
    "type": "response.output_item.done", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_TDVWUShW", 
    "response_id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
    "output_index": 0, 
    "item": {
        "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
        "object": "realtime.item", 
        "type": "message", 
        "status": "incomplete", 
        "role": "assistant", 
        "content": [{
            "type": "audio", 
            "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
            }]
        }
}

response.content_part.added

事件描述

在响应生成期间将新的内容部分添加到助手消息项时,将返回服务器事件response.content_part.added

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.content_part.added
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
part ConversationItemContent 新增的内容部分

示例

 {
        "type": "response.content_part.added",
        "event_id": "event_Ula21nRHDN0DDc4GT280_wa1BMTuP",
        "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
        "item_id": "item_Ula21nRHDN0DDc4GT280_002",
        "output_index": 0,
        "content_index": 0,
        "part": {
            "type": "audio",
            "transcript": ""
        }
}

response.content_part.done

事件描述

在响应生成期间将内容部分添加到助手消息项完成时,将返回服务器事件response.content_part.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.content_part.done
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
part ConversationItemContent 内容部分

示例

{
    "type": "response.content_part.done",
    "event_id": "event_Ula21nRHDN0DDc4GT280_L6W3WslV",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "part": {
        "type": "audio",
        "transcript": "当然会呀!一闪一闪亮晶晶,满天都是小星星,挂在天上放光明,好像许多小眼睛!要不要我再唱一段给你听呀?"
    }
}

response.audio.delta

事件描述

在响应生成期间音频内容发生变化时,将返回服务器事件response.audio.delta

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio.delta
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
delta string 音频内容的base64编码

示例

 {
    "type": "response.audio.delta",
    "event_id": "event_Ula21nRHDN0DDc4GT280_yZemLoGb",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "delta": "audio_base64"
}

response.audio.done

事件描述

在响应生成期间音频内容完成时,将返回服务器事件response.audio.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio.done
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引

示例

{
    "type": "response.audio.done",
    "event_id": "event_Ula21nRHDN0DDc4GT280_WLL6zFxV",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0
}

response.audio_transcript.delta

事件描述

在响应生成期间将新的内容部分添加到助手消息项时,将返回服务器事件response.audio_transcript.delta

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio_transcript.delta
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
delta string 转录文本

示例

 {
    "type": "response.audio_transcript.delta",
    "event_id": "event_Ula21nRHDN0DDc4GT280_4iuzQnqh",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "delta": "当然会呀"
}

response.audio_transcript.done

事件描述

在响应生成期间将新的内容部分添加到助手消息项时,将返回服务器事件response.audio_transcript.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio_transcript.done
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
transcript string 转录文本

示例

{
    "type": "response.audio_transcript.done",
    "event_id": "event_Ula21nRHDN0DDc4GT280_eS2AxK1L",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "transcript": "当然会呀!一闪一闪亮晶晶,满天都是小星星,挂在天上放光明,好像许多小眼睛!要不要我再唱一段给你听呀?"
}

数据类型

Session

类型描述

该session数据类型代表API中的会话

类型参数

参数名称 类型 说明
id string 会话的唯一 ID
object string 固定值realtime.response
expires_at integer 会话过期的时间戳,以秒为单位
input_audio_format string 输入音频的格式,默认pcm16
input_audio_noise_reduction InputAudioNoiseReduction 输入音频降噪配置,null表示不开启
input_audio_transcription InputAudioTranscription 输入音频转录配置,null表示不开启
instructions string 系统指令
max_response_output_tokens integer / string 模型生成输出的最大token数,默认"inf"
modalities string [] 输出模态,仅支持["text", "audio"]
model string 模型名称
output_audio_format string 目前仅支持pcm16
speed float 语速,默认1.0
temperature float 模型的采样温度
turn_detection TurnDetection 轮次检测VAD配置,null表示关闭VAD
voice string 模型用于响应的语音

示例

{
    "id": "sess_ywqGIVMsrQKh8jY4WhYZ", 
    "object": "realtime.session", 
    "expires_at": 1752218581, 
    "input_audio_format": "pcm16", 
    "input_audio_noise_reduction": null, 
    "input_audio_transcription": {
        "model": "default", 
        "language": null,
        "prompt": null
    }, 
    "instructions": "", 
    "max_response_output_tokens": "inf", 
    "modalities": [
        "text",
        "audio"
    ], 
    "model": "audio-realtime", 
    "output_audio_format": "pcm16", 
    "speed": 1, 
    "temperature": 0.8, 
    "tool_choice": "auto",
    "tools": [], 
    "tracing": null, 
    "turn_detection": {
        "type": "server_vad", 
        "threshold": 0.5, 
        "prefix_padding_ms": 300, 
        "silence_duration_ms": 200, 
        "create_response": true, 
        "interrupt_response": true
     }, 
     "voice": "default"
}

UpdateSession

类型描述

如果想通过session.update事件更新会话配置时,可以使用该对象

类型参数

参数名称 类型 说明
input_audio_format string 输入音频的格式,默认pcm16
input_audio_transcription InputAudioTranscription 输入音频转录配置,null表示不开启
max_response_output_tokens integer / string 模型生成输出的最大token数,默认"inf"
output_audio_format string 目前仅支持pcm16
speed float 语速,目前仅支持1.0
turn_detection TurnDetection 轮次检测VAD配置,null表示关闭VAD
voice string 模型用于响应的语音

示例

{
    "input_audio_format": "pcm16", 
    "input_audio_transcription": {
        "model": "default", 
    }, 
    "output_audio_format": "pcm16", 
    "speed": 1, 
    "turn_detection": {
        "type": "server_vad", 
        "create_response": true, 
        "interrupt_response": true
     }, 
     "voice": "default"
}

InputAudioNoiseReduction

类型描述

输入音频降噪配置。

类型参数

参数名称 类型 说明
type string 降噪类型,支持near_field、far_field

InputAudioTranscription

类型描述

输入音频转录配置。

类型参数

参数名称 类型 说明
model string 转录模型,该配置为必填项,支持的值:default
language string 输入音频的语言,支持值:zh
prompt string 音频转录的提示词,暂不支持

TurnDetection

类型描述

轮次检测VAD配置。

类型参数

参数名称 类型 说明
type string 检测类型,目前仅支持server_vad
create_response boolean 是否在检测到静音后自动生成响应,目前仅支持true
interrupt_response boolean 是否允许在播放语音响应过程中被打断,目前仅支持true

Conversation

类型描述

表示一个对话对象

类型参数

参数名称 类型 说明
id string 对话唯一ID
object string 固定值realtime.conversation

示例

{
    "id": "conv_auVpdUi6cvWu5ANDjL25", 
    "object": "realtime.conversation"
}

ConversationItem

类型描述

代表对话中的一个项目

类型参数

参数名称 类型 说明
id string 唯一ID
object string 固定值realtime.item
type string 类型。允许的值:message
status string 当前内容状态,"in_progress" 表示生成中,"completed" 表示已完成,"incompleted" 表示不完整
role string 发言方角色,user、assistant、system
content ConversationItemContent[] 项目内容

示例

{
    "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
    "object": "realtime.item", 
    "type": "message", 
    "status": "incomplete", 
    "role": "assistant", 
    "content": [{
        "type": "audio", 
        "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
        }]
}

ConversationItemContent

参数名称 类型 说明
type string 内容类型。枚举值有:input_text、input_audio、item_reference、text、audio
text string 文本内容,用于 input_text 和 text 内容类型
audio string Base64 编码的音频字节,用于 input_audio 和 audio 内容类型
transcripts string 音频的转录,用于"input_audio" 和"audio" 内容类型

示例

{
    "type": "audio", 
    "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
}

Response

类型描述

Response代表服务端返回的响应类型

类型参数

参数名称 类型 说明
id string 响应的唯一ID
object string 固定为realtime.response
status string 响应的状态:in_progress、completed、cancelled、incomplete、failed
status_details ResponseStatusDetails 响应状态的详细信息
output ConversationItem[] 响应的输出项目
conversation_id string 响应对应的对话id
modalities string[] 模型可以响应的模态集合:["text", "audio"]
voice string 输出语音模型
output_audio_format string 目前仅支持pcm16
temperature float 模型的采样温度
max_output_tokens string / integer 此响应使用的最大输出令牌数,包括工具调用

示例

{
    "id": "resp_0mYKGHLhTPGZ4BoeM7Bs_031",
    "object": "realtime.response",
    "status": "completed",
    "status_details": {
        "type": "completed"
    },
    "output": [
        {
            "id": "item_0mYKGHLhTPGZ4BoeM7Bs_096",
            "object": "realtime.item",
            "type": "message",
            "status": "completed",
            "role": "assistant",
            "content": [
                {
                    "type": "audio",
                    "transcript": "那真好呀!希望你能一直保持这样的好心情哦,超级超级开心呢!"
                }
            ]
        }
    ],
    "conversation_id": "conv_gL76z3pV3JhACstARqkX",
    "modalities": [
        "text",
        "audio"
    ], 
    "voice": "default",
    "output_audio_format": "pcm16",
    "temperature": 0.8,
    "max_output_tokens": "inf"
}

ResponseStatusDetails

类型描述

表示服务端响应状态的详细信息

类型参数

参数名称 类型 说明
type status 状态类型。与response的status保持一致
reason string 当响应未完成时显示原因
  • 若响应状态为cancelled,原因包括turn_detected或client_cancelled
  • 若响应状态为incomplete,原因包括max_output_tokens或content_filter
error Error 若响应状态为failed,包括错误类型与具体错误代码

Error

类型描述

表示服务端响应状态的错误信息。

事件参数

参数名称 类型 说明
type string 错误的类型
code string 错误代码
message string 人类可读的错误消息
event_id string 触发该错误的客户端事件ID(如果有)
param string 与错误相关的参数(如果有)

示例

{
    "type": "invalid_request_error", 
    "code": "missing_required_parameter",
    "message": "Missing required parameter: 'session.input_audio_transcription.model'."
    "param": "session.input_audio_transcription.model"
}

DEMO

python

realime-ws-demo

上一篇
大模型声音复刻
下一篇
端到端语音语言大模型Android SDK
木堂念什么 老人头晕吃什么药效果好 私事是什么意思 什么药止咳最好 肺结核是什么病
有过之而不及是什么意思 河汉是什么意思 2015年属什么生肖 科目一和科目四有什么区别 什么不惧
痛风吃什么肉最好 rmssd是什么意思 嘴唇干裂脱皮是什么原因 扫把星是什么生肖 psg是什么意思
梦见衣服是什么意思 欢是什么动物 雌激素过高吃什么药 12月25日什么星座 登对是什么意思
和平是什么意思aiwuzhiyu.com 胃热吃什么食物好hcv9jop7ns5r.cn 超导体是什么hcv9jop6ns6r.cn 子宫肌瘤变性是什么意思xinjiangjialails.com 子宫内膜6mm意味着什么chuanglingweilai.com
心安是什么意思hcv9jop1ns4r.cn 乙肝核心抗体偏高是什么意思hcv9jop2ns4r.cn 冬枣是什么季节的水果hcv8jop3ns9r.cn 发烧是什么原因hcv8jop3ns4r.cn 舌苔厚发白是什么原因hcv8jop6ns4r.cn
什么东西越晒越湿inbungee.com 妇检是检查什么hcv7jop5ns6r.cn 坎什么意思hcv8jop0ns5r.cn 飞蚊症是什么症状creativexi.com 喉炎用什么药baiqunet.com
局级干部是什么级别hcv7jop6ns7r.cn 经期上火了吃什么降火hcv9jop2ns8r.cn 金字旁乐读什么hcv9jop0ns9r.cn 鸟在电线上为什么不会触电hcv9jop6ns5r.cn 丁丁是什么hcv9jop4ns3r.cn
百度