音频模式设置
概述
在AITuberKit中,您可以使用音频模式,该模式利用OpenAI提供的Audio API功能,以自然语音对文本或语音输入做出响应。此模式作为与实时API模式不同的功能提供。
环境变量:
bash
# 启用音频模式
NEXT_PUBLIC_AUDIO_MODE=false
# 使用Audio API时在前端环境变量中设置
NEXT_PUBLIC_OPENAI_API_KEY=sk-...
# 音频模式输入类型(input_text或input_audio)
NEXT_PUBLIC_AUDIO_MODE_INPUT_TYPE=input_text
# 音频模式语音(alloy, coral, echo, verse, ballad, ash, shimmer, sage)
NEXT_PUBLIC_AUDIO_MODE_VOICE=alloy
支持的模型
音频模式支持以下模型:
- gpt-4o-audio-preview-2024-12-17
- gpt-4o-mini-audio-preview-2024-12-17
- gpt-4o-audio-preview-2024-10-01
设置方法
要使用音频模式,请按照以下步骤操作:
- 选择OpenAI作为AI服务
- 设置OpenAI API密钥
- 打开音频模式
- 根据需要选择输入类型和语音
传输类型设置
在音频模式下,您可以选择两种传输方法:
- 文本:使用Web Speech API在发送前转录语音输入
- 语音:直接从麦克风将语音数据发送到实时API
语音类型设置
在音频模式下,可以使用以下语音类型:
- alloy, coral, echo, verse, ballad, ash, shimmer, sage
每种语音都有不同的特点,允许您为角色选择最佳语音。
限制
- 目前仅支持OpenAI的服务
- 不能与外部连接模式或实时API模式一起使用
- 可能比其他模式产生更高的API使用费用