Lokale Modelle

Lokal ist machbar, aber OpenClaw erwartet großen Kontext + starke Abwehr gegen Prompt Injection. Kleine Karten kürzen den Kontext und schwächen die Sicherheit. Ziele hoch: mindestens 2 voll ausgestattete Mac Studios oder ein gleichwertiges GPU-Rig (~30.000 $+). Eine einzelne 24 GB GPU funktioniert nur für leichtere Prompts mit höherer Latenz. Verwende die größte / vollwertige Modellvariante, die du betreiben kannst; aggressiv quantisierte oder “kleine” Checkpoints erhöhen das Prompt-Injection-Risiko (siehe Security).

Wenn du den unkompliziertesten lokalen Einstieg willst, starte mit Ollama und openclaw onboard. Diese Seite ist der gezielte Guide für hochwertigere lokale Stacks und benutzerdefinierte OpenAI-kompatible lokale Server.

Empfohlen: LM Studio + MiniMax M2.5 (Responses API, Vollversion)

Bester aktueller lokaler Stack. Lade MiniMax M2.5 in LM Studio, aktiviere den lokalen Server (Standard http://127.0.0.1:1234) und verwende die Responses API, um Reasoning vom finalen Text zu trennen.

{
  agents: {
    defaults: {
      model: { primary: "lmstudio/minimax-m2.5-gs32" },
      models: {
        "anthropic/claude-opus-4-6": { alias: "Opus" },
        "lmstudio/minimax-m2.5-gs32": { alias: "Minimax" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Setup-Checkliste

Installiere LM Studio: https://lmstudio.ai
Lade in LM Studio den größten verfügbaren MiniMax M2.5 Build herunter (vermeide “small”/stark quantisierte Varianten), starte den Server und prüfe, dass http://127.0.0.1:1234/v1/models ihn auflistet.
Halte das Modell geladen; Kaltstart bringt zusätzliche Latenz.
Passe contextWindow/maxTokens an, wenn dein LM Studio Build abweicht.
Für WhatsApp bleibe bei der Responses API, damit nur der finale Text gesendet wird.

Behalte gehostete Modelle konfiguriert, auch wenn du lokal betreibst; verwende models.mode: "merge", damit Fallbacks verfügbar bleiben.

Hybrid-Konfiguration: gehostetes Primärmodell, lokaler Fallback

{
  agents: {
    defaults: {
      model: {
        primary: "anthropic/claude-sonnet-4-5",
        fallbacks: ["lmstudio/minimax-m2.5-gs32", "anthropic/claude-opus-4-6"],
      },
      models: {
        "anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
        "lmstudio/minimax-m2.5-gs32": { alias: "MiniMax Local" },
        "anthropic/claude-opus-4-6": { alias: "Opus" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Lokal-zuerst mit gehostetem Sicherheitsnetz

Tausche die Reihenfolge von Primärmodell und Fallback; behalte denselben Providers-Block und models.mode: "merge", damit du auf Sonnet oder Opus zurückfallen kannst, wenn die lokale Maschine ausfällt.

Regionales Hosting / Daten-Routing

Gehostete MiniMax/Kimi/GLM-Varianten gibt es auch auf OpenRouter mit regional gebundenen Endpoints (z. B. US-gehostet). Wähle dort die regionale Variante, um den Traffic in der gewünschten Jurisdiktion zu halten, während du weiterhin models.mode: "merge" für Anthropic/OpenAI-Fallbacks nutzt.
Rein lokal bleibt der stärkste Datenschutzpfad; gehostetes regionales Routing ist der Mittelweg, wenn du Anbieter-Features brauchst, aber die Kontrolle über den Datenfluss behalten willst.

Andere OpenAI-kompatible lokale Proxys

vLLM, LiteLLM, OAI-Proxy oder benutzerdefinierte Gateways funktionieren, wenn sie einen OpenAI-kompatiblen /v1-Endpoint bereitstellen. Ersetze den Provider-Block oben durch deinen Endpoint und deine Modell-ID:

{
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "sk-local",
        api: "openai-responses",
        models: [
          {
            id: "my-local-model",
            name: "Local Model",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 120000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Behalte models.mode: "merge", damit gehostete Modelle als Fallbacks verfügbar bleiben.

Fehlerbehebung

Kann das Gateway den Proxy erreichen? curl http://127.0.0.1:1234/v1/models.
LM Studio Modell entladen? Neu laden; Kaltstart ist eine häufige Ursache für “Hänger”.
Kontext-Fehler? Verringere contextWindow oder erhöhe dein Server-Limit.
Sicherheit: Lokale Modelle überspringen anbieterseitige Filter; halte Agenten eng gefasst und Compaction aktiviert, um den Blast Radius bei Prompt Injection zu begrenzen.