Skip to content

游戏解说模式设置

概述

游戏解说模式允许AI角色进行实时游戏解说。它定期捕获屏幕,将截图发送到多模态AI模型,并生成带有情感的语音解说。结合YouTube直播,可以实现与观众互动的游戏解说。

游戏解说模式设置画面

TIP

要使用游戏解说模式,需要配置支持多模态(具备图像识别功能)的AI模型。

游戏解说模式

切换游戏解说模式的启用/禁用。启用后,主页面会显示游戏控制器按钮。

互斥控制

游戏解说模式与以下功能互斥。启用游戏解说模式时,这些功能将自动禁用:

  • 待机模式
  • 人感检测
  • 实时API
  • 音频模式
  • 外部连接模式
  • 幻灯片模式

注意:YouTube模式不互斥,可以同时使用。

环境变量:

bash
# 游戏解说模式的启用/禁用(true/false)
NEXT_PUBLIC_GAME_COMMENTARY_ENABLED="false"

使用方法

  1. 在设置画面中启用游戏解说模式
  2. 主页面会显示游戏控制器按钮
  3. 点击按钮开始解说(屏幕捕获自动开始)
  4. AI捕获屏幕 → 生成解说 → 语音播放 → 等待 → 重复
  5. 再次点击按钮停止解说

与普通聊天的优先级关系

游戏解说过程中,如果用户发送普通聊天消息,普通聊天会优先处理。如果正在生成或播放解说,解说会被中断,并在聊天回复完成后重新开始下一次解说计时。

与 YouTube 集成同时使用时,保存到聊天记录中的观众评论和 AI 回复也会作为下一次解说生成的上下文被参考。解说本身是否保存到聊天记录,可通过“保存到聊天记录”设置切换。

捕获间隔

以秒为单位设置屏幕捕获间隔(0-20秒)。这是从上一次解说生成和语音播放完成到下一次捕获之间的等待时间。设为0秒时,语音播放完成后立即进行下一次捕获。由于使用基于完成的setTimeout控制,捕获不会与正在进行的生成或播放重叠。

环境变量:

bash
# 捕获间隔(秒)
NEXT_PUBLIC_GAME_COMMENTARY_CAPTURE_INTERVAL="5"

参考上下文数

设置生成解说时参考的过去解说数量(0-20)。将过去的解说作为上下文可以防止重复内容,实现更自然的解说。解说历史在独立于聊天记录的环形缓冲区中管理。

设置为 0 时禁用历史参考,每次都生成独立的解说(也不会添加到环形缓冲区)。

场景描述:画面状态记忆

每次捕获时,AI除了生成解说台词外,还会生成场景描述(对画面状态的客观描述)。场景描述不会被朗读,而是静默存储在环形缓冲区中。在后续捕获时,过去的场景描述会作为上下文传递给AI,从而实现以下类型的解说:

  • 画面变化比较:"HP比刚才低了!"
  • 过去事件引用:"那个Boss又出现了!"
  • 游戏进程追踪:理解从草原→洞窟→Boss房间的流程

参考上下文数的设置也适用于保留的场景描述数量。例如,默认设置为5时,最近5次的场景描述和解说台词对将在下一次AI调用时作为上下文传递。

对API费用的影响

场景描述在与解说相同的API调用中生成,因此不会产生额外的API调用。输出令牌会略有增加,但对费用的影响很小。但是,增加参考上下文数会增加输入令牌,请在配置此设置时平衡成本和解说质量。

环境变量:

bash
# 参考上下文数
NEXT_PUBLIC_GAME_COMMENTARY_CONTEXT_COUNT="5"

提示模板

自定义用于生成解说的提示模板。留空将使用默认提示。

环境变量:

bash
# 解说提示模板
NEXT_PUBLIC_GAME_COMMENTARY_PROMPT_TEMPLATE=""

图像质量

设置捕获图像的JPEG质量(0.3-1.0)。较低的值会减小文件大小并降低API调用成本,但会降低图像质量。

环境变量:

bash
# 捕获图像质量(0.3-1.0)
NEXT_PUBLIC_GAME_COMMENTARY_IMAGE_QUALITY="0.7"

调整宽度

以像素为单位设置捕获图像的调整宽度。设为0则不调整大小。减小图像尺寸有助于降低API调用成本。

环境变量:

bash
# 调整宽度(px,0=不调整)
NEXT_PUBLIC_GAME_COMMENTARY_RESIZE_WIDTH="1024"

保存到聊天记录

配置是否将解说保存到聊天记录。启用后,解说将以 [実況] 前缀保存到聊天记录中。这样可以与YouTube集成和Mastra工作流等引用聊天记录的其他功能共享上下文。

环境变量:

bash
# 保存到聊天记录(true/false)
NEXT_PUBLIC_GAME_COMMENTARY_SAVE_TO_CHAT="true"

视频延迟

将屏幕共享的视频显示延迟指定秒数(0-10秒)。用于补偿AI解说生成所需的时间,使音频与视频的时间保持一致。0 表示禁用。

延迟对象

视频延迟仅适用于预览显示。发送给AI的捕获图像始终实时获取,因此不会使解说的生成变慢。

环境变量:

bash
# 视频延迟(秒,0=禁用)
NEXT_PUBLIC_GAME_COMMENTARY_VIDEO_DELAY="0"

发话中的辅助图像解析

即使在解说发话过程中,也以较低频率解析画面,并将其作为辅助信息传递给下一次解说生成的功能。启用后,在较长时间的发话过程中也不会错过画面变化,可实现场景流程得到补强的解说。

关于API使用费用

辅助图像解析在与常规解说生成不同的API调用中执行,因此会产生多模态API的额外使用费用。仅在使用高速且廉价的图像解析模型时推荐启用。

辅助图像解析提示词

发话中辅助图像解析所使用的系统提示词。可以在此指定游戏的类型或需要关注的要素。包含能够识别是哪款游戏的信息时,解析结果会更稳定。留空将使用默认提示词。

辅助图像解析的间隔

设置发话中辅助图像解析每隔多少秒执行一次(1-10秒)。间隔越短,场景跟随效果越好,但API使用费用也会增加。

环境变量:

bash
# 发话中辅助图像解析的启用/禁用(true/false)
NEXT_PUBLIC_GAME_COMMENTARY_BACKGROUND_ANALYSIS_ENABLED="false"

# 辅助图像解析提示模板
NEXT_PUBLIC_GAME_COMMENTARY_BACKGROUND_ANALYSIS_PROMPT_TEMPLATE=""

# 辅助图像解析的间隔(秒)
NEXT_PUBLIC_GAME_COMMENTARY_BACKGROUND_ANALYSIS_INTERVAL="2"
本文档对应v2.43.2版本