Firecrawl

OpenClaw 可以用 Firecrawl 作为 web_fetch 的回退提取器。这是一个托管的内容提取服务,支持反机器人绕过和缓存,特别适合 JS 重度依赖的网站或阻止普通 HTTP 请求的页面。

获取 API key

  1. 创建 Firecrawl 账号并生成 API key。
  2. 存到配置中或在网关环境中设置 FIRECRAWL_API_KEY

配置 Firecrawl

{
  tools: {
    web: {
      fetch: {
        firecrawl: {
          apiKey: "FIRECRAWL_API_KEY_HERE",
          baseUrl: "https://api.firecrawl.dev",
          onlyMainContent: true,
          maxAgeMs: 172800000,
          timeoutSeconds: 60,
        },
      },
    },
  },
}

注意事项:

  • firecrawl.enabled 默认为 true,除非显式设为 false
  • Firecrawl 回退仅在 API key 可用时尝试(tools.web.fetch.firecrawl.apiKeyFIRECRAWL_API_KEY)。
  • maxAgeMs 控制缓存结果可以有多旧(毫秒)。默认 2 天。

隐身/反机器人绕过

Firecrawl 暴露了一个代理模式参数用于反机器人绕过(basicstealthauto)。OpenClaw 对 Firecrawl 请求始终使用 proxy: "auto"storeInCache: true。如果省略 proxy,Firecrawl 默认为 autoauto 模式在 basic 尝试失败后会用隐身代理重试,这可能比纯 basic 抓取消耗更多额度。

web_fetch 如何使用 Firecrawl

web_fetch 提取顺序:

  1. Readability(本地)
  2. Firecrawl(如果已配置)
  3. 基础 HTML 清理(最后回退)

参见 Web 工具 了解完整的 web 工具设置。