语音合成设置

概述

语音合成设置允许您配置与AI角色语音合成相关的设置。您可以选择各种语音合成引擎，并调整声音质量和参数。

bash

# 使用的语音合成引擎
# voicevox, koeiromap, google, stylebertvits2, aivis_speech, aivis_cloud_api,
# gsvitts, elevenlabs, cartesia, openai, azure
NEXT_PUBLIC_SELECT_VOICE=voicevox

注意

当启用实时API模式或音频模式时，不使用语音合成设置。

选择语音合成引擎

选择您的AI角色将使用的语音合成引擎。支持以下引擎：

VOICEVOX：专为日语设计的高质量语音合成引擎
Koeiromap：情感表达丰富的日语语音合成引擎
Google Text-to-Speech：支持多种语言的Google Cloud Text-to-Speech服务
Style-Bert-VITS2：可控制风格的高质量语音合成引擎（支持日语、英语和中文）
AivisSpeech：使Style-Bert-VITS2模型易于使用的日语语音合成引擎
Aivis Cloud API：AivisSpeech的云版本
GSVI TTS：可定制的语音合成引擎
ElevenLabs：支持多种语言的高质量语音合成服务
Cartesia：高质量语音合成服务
OpenAI TTS：OpenAI提供的支持多种语言的语音合成服务
Azure TTS：Microsoft Azure提供的多语言语音合成服务

语音测试

语音测试允许您播放所选语音合成引擎的声音。

执行语音测试

选择语音合成引擎。
在语音测试中输入您想要播放的文本。
点击"播放"按钮。
语音将会播放。

VOICEVOX

bash

# 服务器URL
VOICEVOX_SERVER_URL=http://localhost:50021
# 说话者ID
NEXT_PUBLIC_VOICEVOX_SPEAKER=46
# 速度
NEXT_PUBLIC_VOICEVOX_SPEED=1.0
# 音高
NEXT_PUBLIC_VOICEVOX_PITCH=0.0
# 语调
NEXT_PUBLIC_VOICEVOX_INTONATION=1.0

VOICEVOX是专为日语设计的高质量语音合成引擎。

服务器URL

设置访问VOICEVOX Engine API的URL。本地运行VOICEVOX的标准URL是http://localhost:50021。

在公开部署中将 VOICEVOX_SERVER_URL 设置为服务器端环境变量时，使用该URL的TTS API会受到 AITUBERKIT_SERVER_SECRET_ACCESS_MODE 控制。公开演示环境请使用 demo，外部应用或管理用途请使用 protected。

说话者选择

从VOICEVOX中可用的说话者中选择。您可以使用"更新说话者列表"按钮获取最新的说话者列表。您可以使用"测试语音"按钮测试所选说话者的声音。

当AITuberKit与VOICEVOX运行在同一台机器上时，可以在默认的 disabled 模式下更新说话者列表。使用另一台主机上的VOICEVOX时，请将其Origin添加到 AITUBERKIT_ALLOWED_TTS_SERVER_ORIGINS。公开URL请根据需要使用 protected 或 demo。

语音参数调整

速度：可在0.5至2.0范围内调整（值越大，说话越快）
音高：可在-0.15至0.15范围内调整（值越大，声音越高）
语调：可在0.0至2.0范围内调整（值越大，语调越强）

Koeiromap

bash

# API密钥
NEXT_PUBLIC_KOEIROMAP_KEY=

Koeiromap是一种情感表达丰富的日语语音合成引擎。现已更名为Koemotion。

API密钥

设置使用Koeiromap API的API密钥。API密钥可从Koemotion获取。

预设和调整

预设：您可以从"可爱"、"有活力"、"酷"和"深沉"等预设中选择
X轴：在-10至10范围内调整声音质量
Y轴：在-10至10范围内调整声音质量

Google Text-to-Speech

bash

# 认证JSON文件的路径
GOOGLE_APPLICATION_CREDENTIALS="./credentials.json"
# API密钥
GOOGLE_TTS_KEY=""
# 语言/模型设置
NEXT_PUBLIC_GOOGLE_TTS_TYPE=

Google Cloud Text-to-Speech是支持多种语言的语音合成服务。

设置

语言选择：设置要使用的语言/语音模型
认证：需要API密钥或认证JSON文件（credentials.json）

有关详细的语音模型，请参阅Google Cloud官方文档。

Style-Bert-VITS2

bash

# 服务器URL
STYLEBERTVITS2_SERVER_URL=""
# API密钥
STYLEBERTVITS2_API_KEY=""
# 模型ID
NEXT_PUBLIC_STYLEBERTVITS2_MODEL_ID=0
# 风格
NEXT_PUBLIC_STYLEBERTVITS2_STYLE=Neutral
# SDP/DP混合比例
NEXT_PUBLIC_STYLEBERTVITS2_SDP_RATIO=0.2
# 说话速度
NEXT_PUBLIC_STYLEBERTVITS2_LENGTH=1.0

Style-Bert-VITS2是一种可控制风格的高质量语音合成引擎。它支持日语、英语和中文。

服务器URL

设置Style-Bert-VITS2服务器的URL。

API密钥

使用RunPod启动时需要此项。通常不需要设置。

语音参数调整

模型ID：指定要使用的模型ID
风格：指定语音风格（例如，Neutral）
SDP/DP混合比例：可在0.0至1.0范围内调整
说话速度：可在0.0至2.0范围内调整

AivisSpeech

bash

# 服务器URL
AIVIS_SPEECH_SERVER_URL=http://localhost:10101
# 说话者ID
NEXT_PUBLIC_AIVIS_SPEECH_SPEAKER=888753760
# 速度
NEXT_PUBLIC_AIVIS_SPEECH_SPEED=1.0
# 音高
NEXT_PUBLIC_AIVIS_SPEECH_PITCH=0.0
# 节拍动态
NEXT_PUBLIC_AIVIS_SPEECH_TEMPO_DYNAMICS="1.0"
# 风格强度
NEXT_PUBLIC_AIVIS_SPEECH_INTONATION_SCALE="1.0"
# 语音前静音时间
NEXT_PUBLIC_AIVIS_SPEECH_PRE_PHONEME_LENGTH="0.1"
# 语音后静音时间
NEXT_PUBLIC_AIVIS_SPEECH_POST_PHONEME_LENGTH="0.1"

AivisSpeech是一种日语语音合成引擎。

服务器URL

设置AivisSpeech服务器的URL。本地运行AivisSpeech的标准URL是http://localhost:10101。

在公开部署中将 AIVIS_SPEECH_SERVER_URL 设置为服务器端环境变量时，使用该URL的TTS API会受到 AITUBERKIT_SERVER_SECRET_ACCESS_MODE 控制。公开演示环境请使用 demo，外部应用或管理用途请使用 protected。

说话者选择

从AivisSpeech中可用的说话者中选择。您可以使用"更新说话者列表"按钮更新说话者列表。

当AITuberKit与AivisSpeech运行在同一台机器上时，可以在默认的 disabled 模式下更新说话者列表。使用另一台主机上的AivisSpeech时，请将其Origin添加到 AITUBERKIT_ALLOWED_TTS_SERVER_ORIGINS。公开URL请根据需要使用 protected 或 demo。

语音参数调整

速度：可在0.5至2.0范围内调整（值越大，说话越快）
说话者选择：从可用的说话者中选择
音高：可在-0.15至0.15范围内调整
节拍动态：可在0.5至2.0范围内调整
风格强度：可在0.0至2.0范围内调整（受风格影响）
语音前静音时间：可在0.0至1.0范围内调整
语音后静音时间：可在0.0至1.0范围内调整

Aivis Cloud API

bash

# API密钥
AIVIS_CLOUD_API_KEY=""
# 模型UUID
NEXT_PUBLIC_AIVIS_CLOUD_MODEL_UUID=""
# 风格ID
NEXT_PUBLIC_AIVIS_CLOUD_STYLE_ID="0"
# 风格名称
NEXT_PUBLIC_AIVIS_CLOUD_STYLE_NAME=""
# 是否使用风格名称（true/false）
NEXT_PUBLIC_AIVIS_CLOUD_USE_STYLE_NAME="false"
# 速度
NEXT_PUBLIC_AIVIS_CLOUD_SPEED="1.0"
# 音高
NEXT_PUBLIC_AIVIS_CLOUD_PITCH="0.0"
# 节拍动态
NEXT_PUBLIC_AIVIS_CLOUD_TEMPO_DYNAMICS="1.0"
# 情感表达强度
NEXT_PUBLIC_AIVIS_CLOUD_INTONATION_SCALE="1.0"
# 语音前静音时间
NEXT_PUBLIC_AIVIS_CLOUD_PRE_PHONEME_LENGTH="0.1"
# 语音后静音时间
NEXT_PUBLIC_AIVIS_CLOUD_POST_PHONEME_LENGTH="0.1"

Aivis Cloud API是AivisSpeech的云版本。

API密钥

设置使用Aivis Cloud API的API密钥。您可以从Aivis Cloud获取API密钥。

模型UUID

设置要使用的模型的UUID。您可以在AivisHub找到模型列表。

风格ID / 风格名称

设置要使用的风格的ID或名称。您可以从模型详细页面查看。默认为0或Normal。

语音参数调整

速度：可在0.5至2.0范围内调整（值越大，说话越快）
音高：可在-0.15至0.15范围内调整（值越大，声音越高）
节拍动态：可在0.5至2.0范围内调整
情感表达强度：可在0.0至2.0范围内调整（受风格影响）
语音前静音时间：可在0.0至1.0范围内调整
语音后静音时间：可在0.0至1.0范围内调整

GSVI TTS

bash

# 服务器URL
GSVI_TTS_URL=http://127.0.0.1:5000/tts
# 旧客户端公开设置（用于兼容）
NEXT_PUBLIC_GSVI_TTS_URL=""
# 模型ID
NEXT_PUBLIC_GSVI_TTS_MODEL_ID=0
# 批处理大小
NEXT_PUBLIC_GSVI_TTS_BATCH_SIZE=2
# 说话速率
NEXT_PUBLIC_GSVI_TTS_SPEECH_RATE=1.0

GSVI TTS是一种可定制的语音合成引擎。

服务器URL

设置GSVI TTS服务器的URL。新设置使用服务器端的 GSVI_TTS_URL，并通过AITuberKit的 /api/tts-gsvi 获取语音。同一台机器上的环回URL可在默认的 disabled 模式下使用。NEXT_PUBLIC_GSVI_TTS_URL 用于兼容旧设置。

语音参数调整

模型ID：指定要使用的模型ID
批处理大小：影响推理速度（1-100，越大越快但内存使用量也越大）
说话速率：可在0.5至2.0范围内调整

ElevenLabs

bash

# API密钥
ELEVENLABS_API_KEY=""
# 语音ID
NEXT_PUBLIC_ELEVENLABS_VOICE_ID=""

ElevenLabs是支持多种语言的高质量语音合成服务。

API密钥

设置使用ElevenLabs API的API密钥。

语音ID

设置要使用的语音ID（可从ElevenLabs API查看）

Cartesia

bash

# API密钥
CARTESIA_API_KEY=""
# 模型ID
NEXT_PUBLIC_CARTESIA_VOICE_ID=""

Cartesia是高质量语音合成服务。

API密钥

设置使用Cartesia API的API密钥。您可以从Cartesia获取API密钥。免费可用。

模型ID

设置要使用的语音模型ID。您可以从这里查看模型。

OpenAI TTS

bash

# API密钥
OPENAI_TTS_KEY=""
# 语音类型
NEXT_PUBLIC_OPENAI_TTS_VOICE=shimmer
# 模型
NEXT_PUBLIC_OPENAI_TTS_MODEL=tts-1
# 说话速度
NEXT_PUBLIC_OPENAI_TTS_SPEED=1.0

OpenAI提供的多语言语音合成服务。

API密钥

设置使用OpenAI API的API密钥。

语音参数调整

语音类型：从alloy、echo、fable、onyx、nova、shimmer中选择
模型：从tts-1（标准）、tts-1-hd（高质量）或gpt-4o-mini-tts中选择
说话速度：可在0.25至4.0范围内调整

Azure OpenAPI TTS

bash

# API密钥
AZURE_TTS_KEY=""
# 端点
AZURE_TTS_ENDPOINT=""
# 语音类型
NEXT_PUBLIC_OPENAI_TTS_VOICE=shimmer
# 说话速度
NEXT_PUBLIC_OPENAI_TTS_SPEED=1.0

Microsoft Azure提供的多语言语音合成服务。

API密钥

设置Azure TTS API密钥。

端点

设置Azure TTS端点URL。

语音参数调整

语音类型：选择要使用的语音类型
说话速度：可在0.25至4.0范围内调整

语音合成设置 ​

概述 ​

选择语音合成引擎 ​

语音测试 ​

执行语音测试 ​

VOICEVOX ​

服务器URL ​

说话者选择 ​

语音参数调整 ​

Koeiromap ​

API密钥 ​

预设和调整 ​

Google Text-to-Speech ​

设置 ​

Style-Bert-VITS2 ​

服务器URL ​

API密钥 ​

语音参数调整 ​

AivisSpeech ​

服务器URL ​

说话者选择 ​

语音参数调整 ​

Aivis Cloud API ​

API密钥 ​

模型UUID ​

风格ID / 风格名称 ​

语音参数调整 ​

GSVI TTS ​

服务器URL ​

语音参数调整 ​

ElevenLabs ​

API密钥 ​

语音ID ​

Cartesia ​

API密钥 ​

模型ID ​

OpenAI TTS ​

API密钥 ​

语音参数调整 ​

Azure OpenAPI TTS ​

API密钥 ​

端点 ​

语音参数调整 ​

语音合成设置

概述

选择语音合成引擎

语音测试

执行语音测试

VOICEVOX

服务器URL

说话者选择

语音参数调整

Koeiromap

API密钥

预设和调整

Google Text-to-Speech

设置

Style-Bert-VITS2

服务器URL

API密钥

语音参数调整

AivisSpeech

服务器URL

说话者选择

语音参数调整

Aivis Cloud API

API密钥

模型UUID

风格ID / 风格名称

语音参数调整

GSVI TTS

服务器URL

语音参数调整

ElevenLabs

API密钥

语音ID

Cartesia

API密钥

模型ID

OpenAI TTS

API密钥

语音参数调整

Azure OpenAPI TTS

API密钥

端点

语音参数调整