オーディオモード設定

概要

AITuberKitでは、OpenAIが提供するAudio API機能を活用して、テキストまたは音声入力に対して自然な音声で応答するオーディオモードを利用できます。このモードは、リアルタイムAPIモードとは異なる機能として提供されています。

環境変数:

bash

# オーディオモードの有効化
NEXT_PUBLIC_AUDIO_MODE=false

# Audio APIを利用する場合はフロントエンドの環境変数に設定
NEXT_PUBLIC_OPENAI_API_KEY=sk-...

# オーディオモードの入力タイプ（input_text or input_audio）
NEXT_PUBLIC_AUDIO_MODE_INPUT_TYPE=input_text

# オーディオモードの音声（alloy, coral, echo, verse, ballad, ash, shimmer, sage）
NEXT_PUBLIC_AUDIO_MODE_VOICE=alloy

対応モデル

オーディオモードでは、以下のモデルに対応しています：

gpt-4o-audio-preview-2024-12-17
gpt-4o-mini-audio-preview-2024-12-17
gpt-4o-audio-preview-2024-10-01

設定方法

オーディオモードを利用するには、以下の手順で設定します：

AIサービスとしてOpenAIを選択
OpenAI APIキーを設定
オーディオモードをONに設定
必要に応じて入力タイプと音声を選択

送信タイプ設定

オーディオモードでは、2種類の送信方法から選択できます：

テキスト：マイクで入力された音声をWeb Speech APIで文字起こしした後に送信
音声：マイクからの音声データを直接Realtime APIに送信

音声タイプ設定

オーディオモードでは、以下の音声タイプが選択可能です：

alloy, coral, echo, verse, ballad, ash, shimmer, sage

各音声には異なる特性があり、キャラクターに合わせて最適な声を選択できます。

制限事項

現在OpenAIのサービスのみ対応
外部連携モード、リアルタイムAPIモードとの併用不可
他のモードよりもAPI利用料金が高くなる場合あり

使い方

キャラクター設定

AI設定

その他

オーディオモード設定

概要

対応モデル

設定方法

送信タイプ設定

音声タイプ設定

制限事項

オーディオモード設定 ​

概要 ​

対応モデル ​

設定方法 ​

送信タイプ設定 ​

音声タイプ設定 ​

制限事項 ​

オーディオモード設定

概要

対応モデル

設定方法

送信タイプ設定

音声タイプ設定

制限事項