Lokale Modelle

Lokal ist machbar, aber OpenClaw erwartet großen Kontext + starke Abwehr gegen Prompt Injection. Kleine Karten kürzen den Kontext und schwächen die Sicherheit. Ziele hoch: mindestens 2 voll ausgestattete Mac Studios oder ein gleichwertiges GPU-Rig (~30.000 $+). Eine einzelne 24 GB GPU funktioniert nur für leichtere Prompts mit höherer Latenz. Verwende die größte / vollwertige Modellvariante, die du betreiben kannst; aggressiv quantisierte oder “kleine” Checkpoints erhöhen das Prompt-Injection-Risiko (siehe Security).

Wenn du den unkompliziertesten lokalen Einstieg willst, starte mit Ollama und openclaw onboard. Diese Seite ist der gezielte Guide für hochwertigere lokale Stacks und benutzerdefinierte OpenAI-kompatible lokale Server.

Empfohlen: LM Studio + MiniMax M2.5 (Responses API, Vollversion)

Bester aktueller lokaler Stack. Lade MiniMax M2.5 in LM Studio, aktiviere den lokalen Server (Standard http://127.0.0.1:1234) und verwende die Responses API, um Reasoning vom finalen Text zu trennen.

{
  agents: {
    defaults: {
      model: { primary: "lmstudio/minimax-m2.5-gs32" },
      models: {
        "anthropic/claude-opus-4-6": { alias: "Opus" },
        "lmstudio/minimax-m2.5-gs32": { alias: "Minimax" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Setup-Checkliste

  • Installiere LM Studio: https://lmstudio.ai
  • Lade in LM Studio den größten verfügbaren MiniMax M2.5 Build herunter (vermeide “small”/stark quantisierte Varianten), starte den Server und prüfe, dass http://127.0.0.1:1234/v1/models ihn auflistet.
  • Halte das Modell geladen; Kaltstart bringt zusätzliche Latenz.
  • Passe contextWindow/maxTokens an, wenn dein LM Studio Build abweicht.
  • Für WhatsApp bleibe bei der Responses API, damit nur der finale Text gesendet wird.

Behalte gehostete Modelle konfiguriert, auch wenn du lokal betreibst; verwende models.mode: "merge", damit Fallbacks verfügbar bleiben.

Hybrid-Konfiguration: gehostetes Primärmodell, lokaler Fallback

{
  agents: {
    defaults: {
      model: {
        primary: "anthropic/claude-sonnet-4-5",
        fallbacks: ["lmstudio/minimax-m2.5-gs32", "anthropic/claude-opus-4-6"],
      },
      models: {
        "anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
        "lmstudio/minimax-m2.5-gs32": { alias: "MiniMax Local" },
        "anthropic/claude-opus-4-6": { alias: "Opus" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Lokal-zuerst mit gehostetem Sicherheitsnetz

Tausche die Reihenfolge von Primärmodell und Fallback; behalte denselben Providers-Block und models.mode: "merge", damit du auf Sonnet oder Opus zurückfallen kannst, wenn die lokale Maschine ausfällt.

Regionales Hosting / Daten-Routing

  • Gehostete MiniMax/Kimi/GLM-Varianten gibt es auch auf OpenRouter mit regional gebundenen Endpoints (z. B. US-gehostet). Wähle dort die regionale Variante, um den Traffic in der gewünschten Jurisdiktion zu halten, während du weiterhin models.mode: "merge" für Anthropic/OpenAI-Fallbacks nutzt.
  • Rein lokal bleibt der stärkste Datenschutzpfad; gehostetes regionales Routing ist der Mittelweg, wenn du Anbieter-Features brauchst, aber die Kontrolle über den Datenfluss behalten willst.

Andere OpenAI-kompatible lokale Proxys

vLLM, LiteLLM, OAI-Proxy oder benutzerdefinierte Gateways funktionieren, wenn sie einen OpenAI-kompatiblen /v1-Endpoint bereitstellen. Ersetze den Provider-Block oben durch deinen Endpoint und deine Modell-ID:

{
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "sk-local",
        api: "openai-responses",
        models: [
          {
            id: "my-local-model",
            name: "Local Model",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 120000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Behalte models.mode: "merge", damit gehostete Modelle als Fallbacks verfügbar bleiben.

Fehlerbehebung

  • Kann das Gateway den Proxy erreichen? curl http://127.0.0.1:1234/v1/models.
  • LM Studio Modell entladen? Neu laden; Kaltstart ist eine häufige Ursache für “Hänger”.
  • Kontext-Fehler? Verringere contextWindow oder erhöhe dein Server-Limit.
  • Sicherheit: Lokale Modelle überspringen anbieterseitige Filter; halte Agenten eng gefasst und Compaction aktiviert, um den Blast Radius bei Prompt Injection zu begrenzen.