로컬 모델

로컬 실행은 가능하지만, OpenClaw는 대규모 컨텍스트와 프롬프트 인젝션에 대한 강력한 방어를 요구합니다. 작은 카드는 컨텍스트를 잘라내고 안전성이 취약합니다. 높은 사양을 목표로 하세요: 2대 이상의 최대 사양 Mac Studio 또는 동등한 GPU 리그 (~$30k+). 단일 24 GB GPU는 더 가벼운 프롬프트에서 더 높은 지연 시간으로만 동작합니다. 실행할 수 있는 가장 큰 / 전체 크기 모델 변형을 사용하세요. 공격적으로 양자화되거나 “소형” 체크포인트는 프롬프트 인젝션 위험을 높입니다 (보안 참조).

가장 마찰이 적은 로컬 설정을 원하면 Ollama와 openclaw onboard로 시작하세요. 이 페이지는 고급 로컬 스택과 커스텀 OpenAI 호환 로컬 서버를 위한 주관적인 가이드입니다.

권장: LM Studio + MiniMax M2.5 (Responses API, 전체 크기)

현재 최고의 로컬 스택입니다. LM Studio에서 MiniMax M2.5를 로드하고, 로컬 서버(기본값 http://127.0.0.1:1234)를 활성화하며, Responses API를 사용하여 추론과 최종 텍스트를 분리합니다.

{
  agents: {
    defaults: {
      model: { primary: "lmstudio/minimax-m2.5-gs32" },
      models: {
        "anthropic/claude-opus-4-6": { alias: "Opus" },
        "lmstudio/minimax-m2.5-gs32": { alias: "Minimax" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

설정 체크리스트

LM Studio 설치: https://lmstudio.ai
LM Studio에서 사용 가능한 가장 큰 MiniMax M2.5 빌드를 다운로드합니다 (“소형”/과도하게 양자화된 변형 피하기), 서버를 시작하고, http://127.0.0.1:1234/v1/models에 목록이 있는지 확인합니다.
모델을 로드된 상태로 유지합니다. 콜드 로드는 시작 지연을 추가합니다.
LM Studio 빌드가 다른 경우 contextWindow/maxTokens를 조정합니다.
WhatsApp의 경우, 최종 텍스트만 전송되도록 Responses API를 유지합니다.

로컬 실행 중에도 호스팅 모델을 설정된 상태로 유지합니다. models.mode: "merge"를 사용하여 폴백을 유지합니다.

하이브리드 설정: 호스팅 기본, 로컬 폴백

{
  agents: {
    defaults: {
      model: {
        primary: "anthropic/claude-sonnet-4-5",
        fallbacks: ["lmstudio/minimax-m2.5-gs32", "anthropic/claude-opus-4-6"],
      },
      models: {
        "anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
        "lmstudio/minimax-m2.5-gs32": { alias: "MiniMax Local" },
        "anthropic/claude-opus-4-6": { alias: "Opus" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.5-gs32",
            name: "MiniMax M2.5 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

로컬 우선 + 호스팅 안전망

기본과 폴백 순서를 바꿉니다. 동일한 제공자 블록과 models.mode: "merge"를 유지하여 로컬 머신이 다운될 때 Sonnet 또는 Opus로 폴백할 수 있습니다.

지역 호스팅 / 데이터 라우팅

호스팅 MiniMax/Kimi/GLM 변형은 지역 고정 엔드포인트(예: 미국 호스팅)가 있는 OpenRouter에도 존재합니다. 선택한 관할권 내에 트래픽을 유지하면서 Anthropic/OpenAI 폴백을 위해 models.mode: "merge"를 사용하려면 해당 지역 변형을 선택하세요.
로컬 전용이 가장 강력한 프라이버시 경로입니다. 호스팅 지역 라우팅은 제공자 기능이 필요하지만 데이터 흐름을 제어하고 싶을 때의 중간 지대입니다.

기타 OpenAI 호환 로컬 프록시

vLLM, LiteLLM, OAI-proxy 또는 커스텀 게이트웨이는 OpenAI 스타일 /v1 엔드포인트를 노출하면 동작합니다. 위의 제공자 블록을 엔드포인트와 모델 ID로 교체합니다:

{
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "sk-local",
        api: "openai-responses",
        models: [
          {
            id: "my-local-model",
            name: "Local Model",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 120000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

호스팅 모델이 폴백으로 유지되도록 models.mode: "merge"를 유지합니다.

문제 해결

게이트웨이가 프록시에 도달할 수 있나요? curl http://127.0.0.1:1234/v1/models.
LM Studio 모델이 언로드되었나요? 다시 로드하세요. 콜드 스타트는 일반적인 “멈춤” 원인입니다.
컨텍스트 오류? contextWindow를 낮추거나 서버 제한을 올립니다.
안전: 로컬 모델은 제공자 측 필터를 건너뜁니다. 에이전트를 좁게 유지하고 컴팩션을 켜서 프롬프트 인젝션 폭발 반경을 제한합니다.