Lokale Modelle
Lokal ist machbar, aber OpenClaw erwartet großen Kontext + starke Abwehr gegen Prompt Injection. Kleine Karten kürzen den Kontext und schwächen die Sicherheit. Ziele hoch: mindestens 2 voll ausgestattete Mac Studios oder ein gleichwertiges GPU-Rig (~30.000 $+). Eine einzelne 24 GB GPU funktioniert nur für leichtere Prompts mit höherer Latenz. Verwende die größte / vollwertige Modellvariante, die du betreiben kannst; aggressiv quantisierte oder “kleine” Checkpoints erhöhen das Prompt-Injection-Risiko (siehe Security).
Wenn du den unkompliziertesten lokalen Einstieg willst, starte mit Ollama und openclaw onboard. Diese Seite ist der gezielte Guide für hochwertigere lokale Stacks und benutzerdefinierte OpenAI-kompatible lokale Server.
Empfohlen: LM Studio + MiniMax M2.5 (Responses API, Vollversion)
Bester aktueller lokaler Stack. Lade MiniMax M2.5 in LM Studio, aktiviere den lokalen Server (Standard http://127.0.0.1:1234) und verwende die Responses API, um Reasoning vom finalen Text zu trennen.
{
agents: {
defaults: {
model: { primary: "lmstudio/minimax-m2.5-gs32" },
models: {
"anthropic/claude-opus-4-6": { alias: "Opus" },
"lmstudio/minimax-m2.5-gs32": { alias: "Minimax" },
},
},
},
models: {
mode: "merge",
providers: {
lmstudio: {
baseUrl: "http://127.0.0.1:1234/v1",
apiKey: "lmstudio",
api: "openai-responses",
models: [
{
id: "minimax-m2.5-gs32",
name: "MiniMax M2.5 GS32",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 196608,
maxTokens: 8192,
},
],
},
},
},
}
Setup-Checkliste
- Installiere LM Studio: https://lmstudio.ai
- Lade in LM Studio den größten verfügbaren MiniMax M2.5 Build herunter (vermeide “small”/stark quantisierte Varianten), starte den Server und prüfe, dass
http://127.0.0.1:1234/v1/modelsihn auflistet. - Halte das Modell geladen; Kaltstart bringt zusätzliche Latenz.
- Passe
contextWindow/maxTokensan, wenn dein LM Studio Build abweicht. - Für WhatsApp bleibe bei der Responses API, damit nur der finale Text gesendet wird.
Behalte gehostete Modelle konfiguriert, auch wenn du lokal betreibst; verwende models.mode: "merge", damit Fallbacks verfügbar bleiben.
Hybrid-Konfiguration: gehostetes Primärmodell, lokaler Fallback
{
agents: {
defaults: {
model: {
primary: "anthropic/claude-sonnet-4-5",
fallbacks: ["lmstudio/minimax-m2.5-gs32", "anthropic/claude-opus-4-6"],
},
models: {
"anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
"lmstudio/minimax-m2.5-gs32": { alias: "MiniMax Local" },
"anthropic/claude-opus-4-6": { alias: "Opus" },
},
},
},
models: {
mode: "merge",
providers: {
lmstudio: {
baseUrl: "http://127.0.0.1:1234/v1",
apiKey: "lmstudio",
api: "openai-responses",
models: [
{
id: "minimax-m2.5-gs32",
name: "MiniMax M2.5 GS32",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 196608,
maxTokens: 8192,
},
],
},
},
},
}
Lokal-zuerst mit gehostetem Sicherheitsnetz
Tausche die Reihenfolge von Primärmodell und Fallback; behalte denselben Providers-Block und models.mode: "merge", damit du auf Sonnet oder Opus zurückfallen kannst, wenn die lokale Maschine ausfällt.
Regionales Hosting / Daten-Routing
- Gehostete MiniMax/Kimi/GLM-Varianten gibt es auch auf OpenRouter mit regional gebundenen Endpoints (z. B. US-gehostet). Wähle dort die regionale Variante, um den Traffic in der gewünschten Jurisdiktion zu halten, während du weiterhin
models.mode: "merge"für Anthropic/OpenAI-Fallbacks nutzt. - Rein lokal bleibt der stärkste Datenschutzpfad; gehostetes regionales Routing ist der Mittelweg, wenn du Anbieter-Features brauchst, aber die Kontrolle über den Datenfluss behalten willst.
Andere OpenAI-kompatible lokale Proxys
vLLM, LiteLLM, OAI-Proxy oder benutzerdefinierte Gateways funktionieren, wenn sie einen OpenAI-kompatiblen /v1-Endpoint bereitstellen. Ersetze den Provider-Block oben durch deinen Endpoint und deine Modell-ID:
{
models: {
mode: "merge",
providers: {
local: {
baseUrl: "http://127.0.0.1:8000/v1",
apiKey: "sk-local",
api: "openai-responses",
models: [
{
id: "my-local-model",
name: "Local Model",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 120000,
maxTokens: 8192,
},
],
},
},
},
}
Behalte models.mode: "merge", damit gehostete Modelle als Fallbacks verfügbar bleiben.
Fehlerbehebung
- Kann das Gateway den Proxy erreichen?
curl http://127.0.0.1:1234/v1/models. - LM Studio Modell entladen? Neu laden; Kaltstart ist eine häufige Ursache für “Hänger”.
- Kontext-Fehler? Verringere
contextWindowoder erhöhe dein Server-Limit. - Sicherheit: Lokale Modelle überspringen anbieterseitige Filter; halte Agenten eng gefasst und Compaction aktiviert, um den Blast Radius bei Prompt Injection zu begrenzen.