音声入力設定
概要
音声入力設定では、マイクを使った音声認識の動作を設定できます。ブラウザの音声認識API(WebSpeech API)を使用する方法と、OpenAIのText-to-Speech APIを使用する方法の2種類から選択できます。
環境変数:
# 音声認識モード(browser/whisper)
NEXT_PUBLIC_SPEECH_RECOGNITION_MODE=browser
# 音声認識タイムアウト(秒)
NEXT_PUBLIC_INITIAL_SPEECH_TIMEOUT=30
# 無音検出タイムアウト(秒)
NEXT_PUBLIC_NO_SPEECH_TIMEOUT=2
# 無音プログレスバー表示(true/false)
NEXT_PUBLIC_SHOW_SILENCE_PROGRESS_BAR=true
# 常時マイク入力モード(true/false)
NEXT_PUBLIC_CONTINUOUS_MIC_LISTENING_MODE=false
# OpenAI APIキー(OpenAI TTSモード用)
NEXT_PUBLIC_OPENAI_KEY=
# 文字起こしモデル(whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe)
NEXT_PUBLIC_WHISPER_TRANSCRIPTION_MODEL=whisper-1
マイク入力の方法
マイク入力には以下の方法があります:
キーボードショートカットを使用する方法
- Alt(Macの場合はOption)キーを押している間、音声入力を受け付けます
- 話し終わったらキーを離すとリクエストが送信されます
マイクボタンを使用する方法
- 画面下部のマイクボタンをクリックして音声入力を開始します
- 話し終わったら再度ボタンをクリックしてリクエストを送信します
- その他の設定より、「無音検出タイムアウト」を設定することで、音声入力を自動的に停止して送信することも可能です
音声認識モード
音声入力に使用する認識エンジンを選択します。
- ブラウザの音声認識: ブラウザ内蔵のWebSpeech APIを使用します。インターネット接続が不要で、リアルタイムに認識結果が表示されます。言語は自動的にブラウザの設定に従います。
- OpenAI TTS: OpenAIのTTS APIを使用します。より高精度な認識が可能ですが、APIキーが必要です。音声データは録音完了後にサーバーに送信されるため、認識されるまでに少し時間がかかります。
ボタンをクリックして切り替えることができます。
注意
一般的にはブラウザの音声認識モードの方が精度が高く、認識速度も速いため推奨されます。ただし、FirefoxなどWebSpeech APIに対応していないブラウザを使用している場合は、OpenAI TTSモードを選択してください。
注意
Realtime APIモード および オーディオモードでは、ブラウザ音声認識のみが使用可能です。
1. ブラウザ音声認識の設定
ブラウザの音声認識モードを選択した場合、以下の設定が利用可能です。
音声認識タイムアウト
音声認識開始後、最初の発話が検出されるまでの待機時間を設定します。この時間内に発話が検出されない場合、音声認識は自動的に停止します。
0秒に設定すると、待機時間は無制限になります。
スライダーを使用して0〜60秒の範囲で調整できます。
無音検出タイムアウト
音声入力中に無音を検出した場合、自動的に音声認識を完了させるまでの時間を設定します。0秒に設定すると、無音検出による自動終了は行われません。
スライダーを使用して0〜10秒の範囲で調整できます。
無音プログレスバー表示
音声入力中に無音が検出された場合のプログレスバー表示を設定します。有効にすると、無音タイムアウトまでの残り時間がプログレスバーで表示されます。
常時マイク入力
AIの発話が終了したタイミングで自動的にマイク入力を再開します。設定された無音時間経過後に自動的に送信します。
音声認識がされないまま設定時間を超えると、自動的に常時マイク入力はOFFになるため、常にONにしておきたい場合は音声認識タイムアウトを0秒に設定してください。
注意
Realtime APIモードでは、音声認識タイムアウト、無音検出タイムアウト、無音プログレスバー表示、常時マイク入力の設定は無効になります。
2. OpenAI APIの設定
OpenAI TTSモードを選択した場合、以下の設定が必要になります。
OpenAI APIキー
OpenAI TTSモードを使用するためのOpenAI APIキーを入力します。APIキーはOpenAIのダッシュボードから取得できます。
モデル選択
使用するOpenAIのモデルを選択します。
以下のモデルが利用可能です:
- whisper-1: 標準的なWhisperモデル
- gpt-4o-transcribe: GPT-4oベースの高性能モデル
- gpt-4o-mini-transcribe: GPT-4o-miniベースの軽量モデル
モデルによって精度、速度、コストが異なります。
注意点
- ブラウザの音声認識は、使用するブラウザやOSによって精度や対応言語が異なります。
- OpenAI APIを使用する場合は、APIキーの利用料金が発生することがあります。