Modelos locales

Lo local es factible, pero OpenClaw espera un contexto amplio + defensas fuertes contra inyección de prompts. Las tarjetas pequeñas truncan el contexto y comprometen la seguridad. Apunta alto: 2 o más Mac Studios al máximo o un rig GPU equivalente (~$30k+). Una sola GPU de 24 GB funciona solo para prompts más ligeros con mayor latencia. Usa la variante de modelo más grande / completa que puedas ejecutar; los checkpoints agresivamente cuantizados o “pequeños” aumentan el riesgo de inyección de prompts (consulta Seguridad).

Si quieres la configuración local con menos fricción, comienza con Ollama y openclaw onboard. Esta página es la guía especializada para stacks locales de gama alta y servidores locales compatibles con OpenAI.

Recomendado: LM Studio + MiniMax M2.5 (Responses API, tamaño completo)

El mejor stack local actual. Carga MiniMax M2.5 en LM Studio, habilita el servidor local (por defecto http://127.0.0.1:1234), y usa la Responses API para mantener el razonamiento separado del texto final.

{
  agents: {
    defaults: {
      model: { primary: "lmstudio/minimax-m2.5-gs32" },
      models: {
        "anthropic/claude-opus-4-6": { alias: "Opus" },
        "lmstudio/minimax-m2.5-gs32": { alias: "Minimax" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Lista de verificación de configuración

  • Instala LM Studio: https://lmstudio.ai
  • En LM Studio, descarga la build más grande de MiniMax M2.5 disponible (evita variantes “small”/muy cuantizadas), inicia el servidor, confirma que http://127.0.0.1:1234/v1/models lo lista.
  • Mantén el modelo cargado; la carga en frío agrega latencia de inicio.
  • Ajusta contextWindow/maxTokens si tu build de LM Studio difiere.
  • Para WhatsApp, mantén la Responses API para que solo el texto final se envíe.

Mantén los modelos alojados configurados incluso cuando ejecutes localmente; usa models.mode: "merge" para que los respaldos sigan disponibles.

Configuración híbrida: alojado como principal, local como respaldo

{
  agents: {
    defaults: {
      model: {
        primary: "anthropic/claude-sonnet-4-5",
        fallbacks: ["lmstudio/minimax-m2.5-gs32", "anthropic/claude-opus-4-6"],
      },
      models: {
        "anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
        "lmstudio/minimax-m2.5-gs32": { alias: "MiniMax Local" },
        "anthropic/claude-opus-4-6": { alias: "Opus" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Local primero con red de seguridad alojada

Intercambia el orden de principal y respaldo; mantén el mismo bloque de providers y models.mode: "merge" para poder recurrir a Sonnet u Opus cuando la máquina local esté caída.

Hosting regional / enrutamiento de datos

  • Las variantes alojadas de MiniMax/Kimi/GLM también existen en OpenRouter con endpoints fijados por región (ej., alojados en EEUU). Elige la variante regional allí para mantener el tráfico en tu jurisdicción elegida mientras sigues usando models.mode: "merge" para respaldos de Anthropic/OpenAI.
  • Solo local sigue siendo la ruta de privacidad más fuerte; el enrutamiento regional alojado es el punto medio cuando necesitas funcionalidades del proveedor pero quieres control sobre el flujo de datos.

Otros proxies locales compatibles con OpenAI

vLLM, LiteLLM, OAI-proxy o gateways personalizados funcionan si exponen un endpoint estilo OpenAI /v1. Reemplaza el bloque de proveedor anterior con tu endpoint e id de modelo:

{
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "sk-local",
        api: "openai-responses",
        models: [
          {
            id: "my-local-model",
            name: "Local Model",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 120000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

Mantén models.mode: "merge" para que los modelos alojados sigan disponibles como respaldos.

Solución de problemas

  • ¿El gateway puede alcanzar el proxy? curl http://127.0.0.1:1234/v1/models.
  • ¿Modelo de LM Studio descargado? Recárgalo; el inicio en frío es una causa común de “colgado”.
  • ¿Errores de contexto? Baja contextWindow o sube el límite de tu servidor.
  • Seguridad: los modelos locales omiten los filtros del lado del proveedor; mantén los agentes estrechos y la compactación activada para limitar el radio de impacto de la inyección de prompts.