Gesprächsmodus
Der Gesprächsmodus ist eine durchgängige Sprachkonversationsschleife:
- Auf Sprache lauschen
- Transkript an das Modell senden (Hauptsitzung, chat.send)
- Auf die Antwort warten
- Per ElevenLabs aussprechen (Streaming-Wiedergabe)
Verhalten (macOS)
- Dauerhaftes Overlay während der Gesprächsmodus aktiv ist.
- Lauschen → Denken → Sprechen Phasenübergänge.
- Bei einer kurzen Pause (Stille-Fenster) wird das aktuelle Transkript gesendet.
- Antworten werden in den WebChat geschrieben (wie beim Tippen).
- Unterbrechung bei Sprache (standardmäßig an): Wenn der Benutzer während der Assistentenausgabe spricht, wird die Wiedergabe gestoppt und der Unterbrechungszeitstempel für den nächsten Prompt vermerkt.
Sprachanweisungen in Antworten
Der Assistent kann seiner Antwort eine einzelne JSON-Zeile voranstellen, um die Stimme zu steuern:
{ "voice": "<voice-id>", "once": true }
Regeln:
- Nur die erste nicht-leere Zeile.
- Unbekannte Schlüssel werden ignoriert.
once: truegilt nur für die aktuelle Antwort.- Ohne
oncewird die Stimme zum neuen Standard für den Gesprächsmodus. - Die JSON-Zeile wird vor der TTS-Wiedergabe entfernt.
Unterstützte Schlüssel:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Konfiguration (~/.openclaw/openclaw.json)
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
silenceTimeoutMs: 1500,
interruptOnSpeech: true,
},
}
Standardwerte:
interruptOnSpeech: truesilenceTimeoutMs: wenn nicht gesetzt, verwendet der Gesprächsmodus das Plattform-Standard-Pausenfenster, bevor das Transkript gesendet wird (700 ms auf macOS und Android, 900 ms auf iOS)voiceId: fällt zurück aufELEVENLABS_VOICE_ID/SAG_VOICE_ID(oder erste ElevenLabs-Stimme wenn API-Key verfügbar)modelId: Standard isteleven_v3wenn nicht gesetztapiKey: fällt zurück aufELEVENLABS_API_KEY(oder Gateway-Shell-Profil wenn verfügbar)outputFormat: Standard istpcm_44100auf macOS/iOS undpcm_24000auf Android (setzemp3_*um MP3-Streaming zu erzwingen)
macOS-UI
- Menüleisten-Umschalter: Talk
- Config-Tab: Gesprächsmodus-Gruppe (Voice-ID + Unterbrechungs-Umschalter)
- Overlay:
- Lauschen: Wolke pulsiert mit Mikrofonpegel
- Denken: Sinkende Animation
- Sprechen: Ausstrahlende Ringe
- Klick auf Wolke: Sprechen stoppen
- Klick auf X: Gesprächsmodus beenden
Hinweise
- Erfordert Sprach- und Mikrofonberechtigungen.
- Nutzt
chat.sendgegen Session-Keymain. - TTS nutzt die ElevenLabs-Streaming-API mit
ELEVENLABS_API_KEYund inkrementelle Wiedergabe auf macOS/iOS/Android für geringere Latenz. stabilityfüreleven_v3wird auf0.0,0.5oder1.0validiert; andere Modelle akzeptieren0..1.latency_tierwird auf0..4validiert, wenn gesetzt.- Android unterstützt
pcm_16000,pcm_22050,pcm_24000undpcm_44100Ausgabeformate für latenzarmes AudioTrack-Streaming.