对话模式

对话模式是一个连续的语音对话循环：

监听语音
将转写文本发送给模型（主会话，chat.send）
等待回复
通过 ElevenLabs 朗读（流式播放）

行为（macOS）

对话模式启用时显示常驻浮窗。
监听 → 思考 → 朗读的阶段切换。
短暂停顿（静音窗口）后，当前转写文本被发送。
回复会写入 WebChat（和打字一样）。
语音打断（默认开启）：如果助手正在朗读时用户开始说话，停止播放，并在下次 prompt 中标注打断时间戳。

回复中的语音指令

助手可以在回复开头加一行 JSON 来控制语音：

{ "voice": "<voice-id>", "once": true }

规则：

仅读取第一个非空行。
未知键会被忽略。
once: true 仅对当前回复生效。
不带 once 时，该语音成为对话模式的新默认值。
JSON 行在 TTS 播放前被剥离。

支持的键：

voice / voice_id / voiceId
model / model_id / modelId
speed、rate（WPM）、stability、similarity、style、speakerBoost
seed、normalize、lang、output_format、latency_tier
once

配置（`~/.openclaw/openclaw.json`）

{
  talk: {
    voiceId: "elevenlabs_voice_id",
    modelId: "eleven_v3",
    outputFormat: "mp3_44100_128",
    apiKey: "elevenlabs_api_key",
    silenceTimeoutMs: 1500,
    interruptOnSpeech: true,
  },
}

默认值：

interruptOnSpeech：true
silenceTimeoutMs：未设置时使用平台默认的停顿窗口（macOS 和 Android 为 700ms，iOS 为 900ms）
voiceId：回退到 ELEVENLABS_VOICE_ID / SAG_VOICE_ID（或在有 API 密钥时使用 ElevenLabs 的第一个语音）
modelId：未设置时默认为 eleven_v3
apiKey：回退到 ELEVENLABS_API_KEY（或 gateway shell profile 中的值）
outputFormat：macOS/iOS 默认 pcm_44100，Android 默认 pcm_24000（设置 mp3_* 可强制使用 MP3 流式传输）

macOS 界面

菜单栏开关：Talk
配置标签页：Talk Mode 分组（语音 ID + 打断开关）
浮窗：
- 监听：云朵随麦克风音量脉动
- 思考：下沉动画
- 朗读：辐射光环
- 点击云朵：停止朗读
- 点击 X：退出对话模式

补充说明

需要语音识别 + 麦克风权限。
使用 chat.send 对接会话键 main。
TTS 使用 ElevenLabs 流式 API，通过 ELEVENLABS_API_KEY 在 macOS/iOS/Android 上进行增量播放，降低延迟。
eleven_v3 的 stability 值限定为 0.0、0.5 或 1.0；其他模型接受 0..1。
latency_tier 设置时限定为 0..4。
Android 支持 pcm_16000、pcm_22050、pcm_24000 和 pcm_44100 输出格式，用于低延迟 AudioTrack 流式传输。