多模态设置
概述
在AITuberKit中,您可以利用多模态功能实现不仅使用文本,还使用图像的更丰富交互体验。
环境变量:
bash
# 多模态功能启用设置(true/false)
# 在Azure、OpenRouter、本地LLM、自定义API以及其他模型的自定义模型选择时使用
NEXT_PUBLIC_ENABLE_MULTIMODAL="true"
# 图像显示位置设置
# input: 输入区域, side: 侧面板, icon: 图标
NEXT_PUBLIC_IMAGE_DISPLAY_POSITION="input"
# 是否为图像包含MIME类型
NEXT_PUBLIC_CUSTOM_API_INCLUDE_MIME_TYPE="false"支持的模型
Azure OpenAI、OpenRouter、LM Studio、Ollama、自定义API
在各AI服务中设置可用的多模态启用模型后,请启用"使用多模态"设置。
其他AI服务
支持多模态的模型带有摄像头图标,如下所示。

您也可以设置任意模型。
如果要使用多模态功能,请启用"使用多模态"设置。
Dify不支持多模态功能。
注意
与仅文本对话相比,多模态功能可能会产生更高的API使用费用。
使用方法
要利用多模态功能,请按照以下步骤操作:
- 在设置界面中选择兼容的AI服务和模型
- 启用"使用多模态"设置
- 启用网络摄像头或屏幕共享(如需要)
- 发送消息
"使用多模态"设置
启用"使用多模态"设置后,在发送附带图像的消息时会使用多模态功能。禁用后,即使附带图像,也只会将文本发送给AI。
以前的“由AI判断 / 始终使用 / 不使用”选项已被移除。现在只通过这个开关控制是否发送图像。
MIME类型设置
仅在使用自定义API时,可以设置是否包含图像的MIME类型。
我们已确认使用Mastra时需要包含MIME类型。
多模态相关功能说明

1. 多模态相关按钮
- 屏幕共享按钮:允许您选择要共享的屏幕
- 网络摄像头按钮:启动要共享的网络摄像头
- 图像上传按钮:允许您上传图像(仅在使用多模态时显示)
2. 共享屏幕/网络摄像头视频
显示来自共享屏幕或网络摄像头的视频。 此视频框可以通过拖拽移动。 您还可以通过点击并拖拽四角来调整视频显示区域的大小。
在此屏幕显示状态下发送消息时,将包含发送消息时刻的屏幕截图。 但是,如果已经上传了图像,则优先发送该图像。
视频操作按钮:
- 共享屏幕/摄像头切换按钮:在共享屏幕和网络摄像头视频之间切换
- 背景切换按钮:将共享屏幕或网络摄像头视频切换为背景
- 快门按钮:拍摄共享屏幕或网络摄像头视频的快照
3. 拍摄/上传图像
显示拍摄的图像或上传的图像。 在此处显示图像的状态下发送消息时,消息将包含此图像。
图像上传方法:
- 图像上传按钮:从文件选择对话框选择图像
- 拖放:也可以通过将图像文件拖放到屏幕上来上传图像
- 复制粘贴:也可以从剪贴板复制图像并粘贴到聊天栏中
- 拍摄功能:使用快门按钮从网络摄像头或共享屏幕拍摄
注意
为了优化输入上下文长度,API只发送最新的图像。过去会话中使用的图像在发送新消息时不会包含,请注意。
上传图像的配置可以从以下选项中选择:
- 输入区域:图像显示在聊天输入栏上方
- 侧面板:显示在主屏幕右侧(如上图所示)
- 图标:聊天输入栏显示剪贴图标(没有照片演示)
限制
- 每个AI服务对支持的输入格式和文件大小都有限制
- 高图像分辨率可能会减慢处理速度或增加成本
- 图像识别准确性可能因模型而异
