合成音声設定

概要

合成音声設定では、AIキャラクターの音声合成に関する設定を行います。様々な音声合成エンジンを選択し、声質やパラメータを調整することができます。

bash

# 使用する音声合成エンジン
# voicevox, koeiromap, google, stylebertvits2, aivis_speech, 
# gsvitts, elevenlabs, openai, azure, nijivoice
NEXT_PUBLIC_SELECT_VOICE=voicevox

注意

リアルタイムAPIモードまたはオーディオモードが有効な場合、合成音声設定は使用されません。

合成音声エンジンの選択

AIキャラクターが使用する音声合成エンジンを選択します。以下のエンジンがサポートされています：

VOICEVOX：日本語に特化した高品質な音声合成エンジン
Koeiromap：日本語向けの感情表現が豊かな音声合成エンジン
Google Text-to-Speech：多言語に対応したGoogle Cloud Text-to-Speechサービス
Style-Bert-VITS2：スタイル制御可能な高品質音声合成エンジン（日・英・中対応）
AivisSpeech：Style-Bert-VITS2モデルが簡単に使用できる日本語音声合成エンジン
Aivis Cloud API：AivisSpeechのクラウド版
GSVI TTS：カスタマイズ可能な音声合成エンジン
ElevenLabs：多言語に対応した高品質音声合成サービス
Cartesia：高品質な音声合成サービス
OpenAI TTS：多言語に対応したOpenAIの音声合成サービス
Azure TTS：Microsoft Azureが提供する多言語音声合成サービス
にじボイス：100種類以上の声を利用できる日本語向け音声合成サービス

ボイステスト

ボイステストでは、選択した音声合成エンジンの音声を再生します。

ボイステストの実行

音声合成エンジンを選択します。
必要に応じて各設定項目を入力します。
ボイステストに再生したいテキストを入力します。
「再生する」ボタンをクリックします。
音声が再生されます。

VOICEVOX

bash

# サーバーURL
VOICEVOX_SERVER_URL=http://localhost:50021
# 話者ID
NEXT_PUBLIC_VOICEVOX_SPEAKER=46
# 速度
NEXT_PUBLIC_VOICEVOX_SPEED=1.0
# ピッチ
NEXT_PUBLIC_VOICEVOX_PITCH=0.0
# 抑揚
NEXT_PUBLIC_VOICEVOX_INTONATION=1.0

VOICEVOXは日本語に特化した高品質な音声合成エンジンです。

サーバーURL

VOICEVOX Engine APIにアクセスするためのURLを設定します。ローカルでVOICEVOXを実行している場合の標準的なURLは http://localhost:50021 です。

話者選択

VOICEVOXで利用可能な話者から選択します。「ボイスを試聴する」ボタンで選択した話者の音声をテスト再生できます。

音声パラメータ調整

話速：0.5〜2.0の範囲で調整可能（値が大きいほど速く話します）
音高：-0.15〜0.15の範囲で調整可能（値が大きいほど高い声になります）
抑揚：0.0〜2.0の範囲で調整可能（値が大きいほど抑揚が強くなります）

Koeiromap

bash

# APIキー
NEXT_PUBLIC_KOEIROMAP_KEY=

Koeiromapは、日本語向けの感情表現が豊かな音声合成エンジンです。現在はKoemotionという名称に変更されています。

APIキー

Koeiromap APIを使用するためのAPIキーを設定します。APIキーはKoemotionから取得できます。

プリセットと調整

プリセット：「かわいい」「元気」「かっこいい」「渋い」のプリセットから選択できます
x軸：-10〜10の範囲で声質を調整します
y軸：-10〜10の範囲で声質を調整します

Google Text-to-Speech

bash

# 認証用のJSONファイルのパス
GOOGLE_APPLICATION_CREDENTIALS="./credentials.json"
# APIキー
GOOGLE_TTS_KEY=""
# 言語/モデル設定
NEXT_PUBLIC_GOOGLE_TTS_TYPE=

Google Cloud Text-to-Speechは多言語に対応した音声合成サービスです。

設定

言語選択：使用する言語/音声モデルを設定します
認証：APIキーまたは認証用のJSONファイル（credentials.json）が必要です

詳細な音声モデルはGoogle Cloud公式ドキュメントを参照してください。

Style-Bert-VITS2

bash

# サーバーURL
STYLEBERTVITS2_SERVER_URL=""
# APIキー
STYLEBERTVITS2_API_KEY=""
# モデルID
NEXT_PUBLIC_STYLEBERTVITS2_MODEL_ID=0
# スタイル
NEXT_PUBLIC_STYLEBERTVITS2_STYLE=Neutral
# SDP/DP混合比
NEXT_PUBLIC_STYLEBERTVITS2_SDP_RATIO=0.2
# 話速
NEXT_PUBLIC_STYLEBERTVITS2_LENGTH=1.0

Style-Bert-VITS2は、スタイル制御が可能な高品質音声合成エンジンです。日本語、英語、中国語に対応しています。

サーバーURL

Style-Bert-VITS2サーバーのURLを設定します。

APIキー

RunPod用で起動した場合に必要な項目です。基本的には設定不要です。

音声パラメータ調整

モデルID：使用するモデルのIDを指定します
スタイル：音声のスタイルを指定します（例：Neutral）
SDP/DP混合比：0.0〜1.0の範囲で調整可能
話速：0.0〜2.0の範囲で調整可能

AivisSpeech

bash

# サーバーURL
AIVIS_SPEECH_SERVER_URL=http://localhost:10101
# 話者ID
NEXT_PUBLIC_AIVIS_SPEECH_SPEAKER=888753760
# 速度
NEXT_PUBLIC_AIVIS_SPEECH_SPEED=1.0
# ピッチ
NEXT_PUBLIC_AIVIS_SPEECH_PITCH=0.0
# テンポの緩急
NEXT_PUBLIC_AIVIS_SPEECH_TEMPO_DYNAMICS="1.0"
# スタイルの強さ
NEXT_PUBLIC_AIVIS_SPEECH_INTONATION_SCALE="1.0"
# 音声前の無音時間
NEXT_PUBLIC_AIVIS_SPEECH_PRE_PHONEME_LENGTH="0.1"
# 音声後の無音時間
NEXT_PUBLIC_AIVIS_SPEECH_POST_PHONEME_LENGTH="0.1"

AivisSpeechは日本語音声合成エンジンです。

サーバーURL

AivisSpeechサーバーのURLを設定します。ローカルでAivisSpeechを実行している場合の標準的なURLは http://localhost:10101 です。

話者選択

AivisSpeechで利用可能な話者から選択します。「話者リストを更新」ボタンで最新の話者リストを取得できます。

音声パラメータ調整

話速：0.5〜2.0の範囲で調整可能（値が大きいほど速く話します）
話者選択：利用可能な話者から選択します
話速：0.5〜2.0の範囲で調整可能
ピッチ：-0.15〜0.15の範囲で調整可能
テンポの緩急：0.5〜2.0の範囲で調整可能
スタイルの強さ：0.0〜2.0の範囲で調整可能（スタイルの影響を受けます）
音声前の無音時間：0.0〜1.0の範囲で調整可能
音声後の無音時間：0.0〜1.0の範囲で調整可能

Aivis Cloud API

bash

# APIキー
AIVIS_CLOUD_API_KEY=""
# モデルUUID
NEXT_PUBLIC_AIVIS_CLOUD_MODEL_UUID=""
# スタイルID
NEXT_PUBLIC_AIVIS_CLOUD_STYLE_ID="0"
# スタイル名
NEXT_PUBLIC_AIVIS_CLOUD_STYLE_NAME=""
# スタイル名を使用するかどうか（true/false）
NEXT_PUBLIC_AIVIS_CLOUD_USE_STYLE_NAME="false"
# 速度
NEXT_PUBLIC_AIVIS_CLOUD_SPEED="1.0"
# ピッチ
NEXT_PUBLIC_AIVIS_CLOUD_PITCH="0.0"
# テンポの緩急
NEXT_PUBLIC_AIVIS_CLOUD_TEMPO_DYNAMICS="1.0"
# 感情表現強さ
NEXT_PUBLIC_AIVIS_CLOUD_INTONATION_SCALE="1.0"
# 音声前の無音時間
NEXT_PUBLIC_AIVIS_CLOUD_PRE_PHONEME_LENGTH="0.1"
# 音声後の無音時間
NEXT_PUBLIC_AIVIS_CLOUD_POST_PHONEME_LENGTH="0.1"

Aivis Cloud APIはAivisSpeechのクラウド版です。

APIキー

Aivis Cloud APIを使用するためのAPIキーを設定します。 APIキーはAivis Cloudから取得できます。

モデルUUID

使用するモデルのUUIDを設定します。モデルはAivisHubに一覧があるので、そちらを参照してください。

スタイルID / スタイル名

使用するスタイルのIDまたは名前を設定します。各モデルの詳細画面から確認できます。デフォルトは 0 または ノーマル です。

音声パラメータ調整

話速：0.5〜2.0の範囲で調整可能（値が大きいほど速く話します）
ピッチ：-0.15〜0.15の範囲で調整可能（値が大きいほど高い声になります）
テンポの緩急：0.5〜2.0の範囲で調整可能
感情表現強さ：0.0〜2.0の範囲で調整可能（スタイルの影響を受けます）
音声前の無音時間：0.0〜1.0の範囲で調整可能
音声後の無音時間：0.0〜1.0の範囲で調整可能

GSVI TTS

bash

# サーバーURL
NEXT_PUBLIC_GSVI_TTS_URL=http://127.0.0.1:5000/tts
# モデルID
NEXT_PUBLIC_GSVI_TTS_MODEL_ID=0
# バッチサイズ
NEXT_PUBLIC_GSVI_TTS_BATCH_SIZE=2
# 話速
NEXT_PUBLIC_GSVI_TTS_SPEECH_RATE=1.0

GSVI TTSはカスタマイズ可能な音声合成エンジンです。

サーバーURL

GSVI TTSサーバーのURLを設定します。ローカルでGSVI TTSを実行している場合の標準的なURLは http://127.0.0.1:5000/tts です。

音声パラメータ調整

モデルID：使用するモデルのIDを指定します
バッチサイズ：推論速度に影響します（1〜100、大きいほど速いが、メモリ使用量も増加）
話速：0.5〜2.0の範囲で調整可能

ElevenLabs

bash

# APIキー
ELEVENLABS_API_KEY=""
# ボイスID
ELEVENLABS_VOICE_ID=""

ElevenLabsは多言語に対応した高品質音声合成サービスです。

APIキー

ElevenLabs APIを使用するためのAPIキーを設定します。

ボイスID

使用する音声のIDを設定します（ElevenLabs APIから確認できます）

Cartesia

bash

# APIキー
CARTESIA_API_KEY=""
# モデルID
NEXT_PUBLIC_CARTESIA_VOICE_ID=""

Cartesiaは高品質な音声合成サービスです。

APIキー

Cartesia APIを使用するためのAPIキーを設定します。 APIキーはCartesiaから取得できます。無料で利用可能です。

モデルID

使用する音声のモデルIDを設定します。モデルはこちらから確認できます。

OpenAI TTS

bash

# APIキー
OPENAI_TTS_KEY=""
# ボイスタイプ
NEXT_PUBLIC_OPENAI_TTS_VOICE=shimmer
# モデル
NEXT_PUBLIC_OPENAI_TTS_MODEL=tts-1
# 話速
NEXT_PUBLIC_OPENAI_TTS_SPEED=1.0

OpenAIの提供する多言語音声合成サービスです。

APIキー

OpenAI APIを使用するためのAPIキーを設定します。

音声パラメータ調整

ボイスタイプ：alloy、echo、fable、onyx、nova、shimmerから選択可能
モデル：tts-1（標準）またはtts-1-hd（高品質）またはgpt-4o-mini-ttsから選択可能
話速：0.25〜4.0の範囲で調整可能

Azure OpenAPI TTS

bash

# APIキー
AZURE_TTS_KEY=""
# エンドポイント
AZURE_TTS_ENDPOINT=""
# ボイスタイプ
NEXT_PUBLIC_OPENAI_TTS_VOICE=shimmer
# 話速
NEXT_PUBLIC_OPENAI_TTS_SPEED=1.0

Microsoft Azureが提供する多言語音声合成サービスです。

APIキー

Azure TTS APIキーを設定します。

エンドポイント

Azure TTSのエンドポイントURLを設定します。

音声パラメータ調整

ボイスタイプ：使用する音声タイプを選択します
話速：0.25〜4.0の範囲で調整可能

にじボイス

bash

# APIキー
NIJIVOICE_API_KEY=""
# 話者ID
NEXT_PUBLIC_NIJIVOICE_ACTOR_ID=""
# 話速
NEXT_PUBLIC_NIJIVOICE_SPEED=1.0
# 感情レベル
NEXT_PUBLIC_NIJIVOICE_EMOTIONAL_LEVEL=0.0
# 音声の長さ
NEXT_PUBLIC_NIJIVOICE_SOUND_DURATION=1.0

にじボイスは日本語向けの音声合成サービスです。

APIキー

にじボイスAPIキーを設定します。

音声パラメータ調整

話者ID：使用する話者を選択します
話速：0.4〜3.0の範囲で調整可能。デフォルトでは、各キャラクターに推奨される話速が自動的に設定されます
感情レベル：0〜1.5の範囲で調整可能
音声の長さ：0〜1.7の範囲で調整可能

合成音声設定 ​

概要 ​

合成音声エンジンの選択 ​

ボイステスト ​

ボイステストの実行 ​

VOICEVOX ​

サーバーURL ​

話者選択 ​

音声パラメータ調整 ​

Koeiromap ​

APIキー ​

プリセットと調整 ​

Google Text-to-Speech ​

設定 ​

Style-Bert-VITS2 ​

サーバーURL ​

APIキー ​

音声パラメータ調整 ​

AivisSpeech ​

サーバーURL ​

話者選択 ​

音声パラメータ調整 ​

Aivis Cloud API ​

APIキー ​

モデルUUID ​

スタイルID / スタイル名 ​

音声パラメータ調整 ​

GSVI TTS ​

サーバーURL ​

音声パラメータ調整 ​

ElevenLabs ​

APIキー ​

ボイスID ​

Cartesia ​

APIキー ​

モデルID ​

OpenAI TTS ​

APIキー ​

音声パラメータ調整 ​

Azure OpenAPI TTS ​

APIキー ​

エンドポイント ​

音声パラメータ調整 ​

にじボイス ​

APIキー ​

音声パラメータ調整 ​

合成音声設定

概要

合成音声エンジンの選択

ボイステスト

ボイステストの実行

VOICEVOX

サーバーURL

話者選択

音声パラメータ調整

Koeiromap

APIキー

プリセットと調整

Google Text-to-Speech

設定

Style-Bert-VITS2

サーバーURL

APIキー

音声パラメータ調整

AivisSpeech

サーバーURL

話者選択

音声パラメータ調整

Aivis Cloud API

APIキー

モデルUUID

スタイルID / スタイル名

音声パラメータ調整

GSVI TTS

サーバーURL

音声パラメータ調整

ElevenLabs

APIキー

ボイスID

Cartesia

APIキー

モデルID

OpenAI TTS

APIキー

音声パラメータ調整

Azure OpenAPI TTS

APIキー

エンドポイント

音声パラメータ調整

にじボイス

APIキー

音声パラメータ調整