Firecrawl

OpenClaw puede usar Firecrawl como extractor de respaldo para web_fetch. Es un servicio hospedado de extracción de contenido que soporta evasión de bots y caché, lo que ayuda con sitios pesados en JS o páginas que bloquean las solicitudes HTTP simples.

Obtener una clave API

  1. Crea una cuenta de Firecrawl y genera una clave API.
  2. Guárdala en la configuración o establece FIRECRAWL_API_KEY en el entorno del gateway.

Configurar Firecrawl

{
  tools: {
    web: {
      fetch: {
        firecrawl: {
          apiKey: "FIRECRAWL_API_KEY_HERE",
          baseUrl: "https://api.firecrawl.dev",
          onlyMainContent: true,
          maxAgeMs: 172800000,
          timeoutSeconds: 60,
        },
      },
    },
  },
}

Notas:

  • firecrawl.enabled tiene por defecto true a menos que se establezca explícitamente a false.
  • Los intentos de respaldo de Firecrawl se ejecutan solo cuando hay una clave API disponible (tools.web.fetch.firecrawl.apiKey o FIRECRAWL_API_KEY).
  • maxAgeMs controla la antigüedad máxima de los resultados en caché (ms). El valor por defecto es 2 días.

Stealth / evasión de bots

Firecrawl expone un parámetro de modo proxy para evasión de bots (basic, stealth o auto). OpenClaw siempre usa proxy: "auto" más storeInCache: true para las solicitudes a Firecrawl. Si se omite proxy, Firecrawl usa por defecto auto. auto reintenta con proxies stealth si un intento básico falla, lo que puede usar más créditos que el scraping solo básico.

Cómo web_fetch usa Firecrawl

Orden de extracción de web_fetch:

  1. Readability (local)
  2. Firecrawl (si está configurado)
  3. Limpieza básica de HTML (último respaldo)

Consulta Herramientas web para la configuración completa de herramientas web.