Deepgram(音声文字起こし)

Deepgramは音声認識(Speech-to-Text)APIです。OpenClawではtools.media.audioを通じた受信音声/ボイスノートの文字起こしに使用されます。

有効化すると、OpenClawは音声ファイルをDeepgramにアップロードし、文字起こし結果を返信パイプラインに注入します({{Transcript}} + [Audio]ブロック)。ストリーミングではなく、録音済み音声の文字起こしエンドポイントを使用します。

ウェブサイト:https://deepgram.com ドキュメント:https://developers.deepgram.com

クイックスタート

  1. APIキーを設定します:
DEEPGRAM_API_KEY=dg_...
  1. プロバイダーを有効化します:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

オプション

  • model:DeepgramのモデルID(デフォルト:nova-3
  • language:言語ヒント(オプション)
  • tools.media.audio.providerOptions.deepgram.detect_language:言語検出を有効化(オプション)
  • tools.media.audio.providerOptions.deepgram.punctuate:句読点を有効化(オプション)
  • tools.media.audio.providerOptions.deepgram.smart_format:スマートフォーマットを有効化(オプション)

言語指定の例:

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Deepgramオプション付きの例:

{
  tools: {
    media: {
      audio: {
        enabled: true,
        providerOptions: {
          deepgram: {
            detect_language: true,
            punctuate: true,
            smart_format: true,
          },
        },
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

補足

  • 認証は標準的なプロバイダー認証順序に従います。DEEPGRAM_API_KEYの設定が最も簡単です。
  • プロキシを使用する場合は、tools.media.audio.baseUrltools.media.audio.headersでエンドポイントやヘッダーを上書きできます。
  • 出力は他のプロバイダーと同様の音声ルール(サイズ上限、タイムアウト、文字起こし注入)に従います。