Markdown 格式化

OpenClaw 在发送消息时,先把 Markdown 转换为一个共享的中间表示(IR),再根据不同通道渲染输出。IR 保留了源文本,同时携带样式/链接信息,这样分块和渲染在各通道间就能保持一致。

目标

  • 一致性: 一次解析,多个渲染器。
  • 安全分块: 在渲染前拆分文本,这样内联格式永远不会在块边界断裂。
  • 适配通道: 同一个 IR 可以映射到 Slack mrkdwn、Telegram HTML 和 Signal 样式区间,无需重新解析 Markdown。

管线

  1. 解析 Markdown -> IR
    • IR 就是纯文本加上样式区间(粗体/斜体/删除线/代码/剧透)和链接区间。
    • 偏移量使用 UTF-16 code unit,让 Signal 的样式区间能对齐其 API。
    • 表格只在通道启用了表格转换时才解析。
  2. 分块 IR(格式优先)
    • 分块发生在渲染之前,直接操作 IR 文本。
    • 内联格式不会跨块拆分;每个块会得到自己的区间切片。
  3. 按通道渲染
    • Slack: mrkdwn 标记(粗体/斜体/删除线/代码),链接用 <url|label>
    • Telegram: HTML 标签(<b><i><s><code><pre><code><a href>)。
    • Signal: 纯文本 + text-style 区间;当 label 与 URL 不同时,链接显示为 label (url)

IR 示例

输入 Markdown:

Hello **world** — see [docs](https://docs.openclaw.ai).

IR(示意):

{
  "text": "Hello world — see docs.",
  "styles": [{ "start": 6, "end": 11, "style": "bold" }],
  "links": [{ "start": 19, "end": 23, "href": "https://docs.openclaw.ai" }]
}

使用场景

  • Slack、Telegram 和 Signal 的出站适配器从 IR 渲染。
  • 其他通道(WhatsApp、iMessage、MS Teams、Discord)仍然使用纯文本或各自的格式规则,启用时会在分块前应用 Markdown 表格转换。

表格处理

Markdown 表格在不同聊天客户端中的支持不一致。使用 markdown.tables 按通道(或按账户)控制转换方式。

  • code:渲染为代码块(大多数通道的默认值)。
  • bullets:把每行转换为列表项(Signal 和 WhatsApp 的默认值)。
  • off:禁用表格解析和转换;原始表格文本直接传递。

配置示例:

channels:
  discord:
    markdown:
      tables: code
    accounts:
      work:
        markdown:
          tables: off

分块规则

  • 块大小限制来自通道适配器/配置,应用于 IR 文本。
  • 代码围栏作为单个块保留,带尾部换行,确保通道正确渲染。
  • 列表前缀和引用块前缀是 IR 文本的一部分,分块不会在前缀中间断开。
  • 内联样式(粗体/斜体/删除线/行内代码/剧透)永远不会跨块拆分;渲染器在每个块内重新打开样式。

关于跨通道的分块行为,详见 流式输出与分块

链接策略

  • Slack: [label](/docs/concepts/url) -> <url|label>;裸 URL 保持原样。解析时禁用 autolink 以避免重复链接。
  • Telegram: [label](/docs/concepts/url) -> <a href="url">label</a>(HTML 解析模式)。
  • Signal: [label](/docs/concepts/url) -> label (url)(除非 label 和 URL 相同)。

剧透

剧透标记(||spoiler||)只在 Signal 中解析,映射为 SPOILER 样式区间。其他通道视为纯文本。

如何添加或更新通道格式化器

  1. 解析一次: 使用共享的 markdownToIR(...) 辅助函数,传入适合通道的选项(autolink、标题样式、引用块前缀)。
  2. 渲染:renderMarkdownWithMarkers(...) 实现渲染器,配上样式标记映射(或 Signal 样式区间)。
  3. 分块: 渲染前调用 chunkMarkdownIR(...);逐块渲染。
  4. 接入适配器: 更新通道出站适配器,使用新的分块器和渲染器。
  5. 测试: 添加或更新格式测试;如果通道使用分块,加上出站投递测试。

常见坑

  • Slack 的尖括号标记(<@U123><#C123><https://...>)必须保留;注意安全转义原始 HTML。
  • Telegram HTML 需要转义标签外的文本,避免标记损坏。
  • Signal 样式区间依赖 UTF-16 偏移量;不要使用 code point 偏移量。
  • 为代码围栏保留尾部换行,确保闭合标记独占一行。