多模态设置
概述
在AITuberKit中,您可以利用多模态功能实现不仅使用文本,还使用图像的更丰富交互体验。
环境变量:
bash
# Azure、OpenRouter、本地LLM、自定义API以及其他模型在自定义模型选择时的多模态功能启用设置
NEXT_PUBLIC_ENABLE_MULTIMODAL="true"
# 多模态功能使用时机设置
# ai-decide: AI判断, always: 始终使用, never: 不使用
NEXT_PUBLIC_MULTIMODAL_MODE="ai-decide"
# 选择ai-decide时,AI判断是否使用多模态功能的提示
NEXT_PUBLIC_MULTIMODAL_AI_DECISION_PROMPT="您是一个助手,用于判断图像是否与用户的问题或对话上下文相关。考虑最近的对话历史和用户消息,仅回答"是"或"否"。"
# 图像显示位置设置
# input: 输入区域, side: 侧面板, icon: 图标
NEXT_PUBLIC_IMAGE_DISPLAY_POSITION="input"
# 是否为图像包含MIME类型
NEXT_PUBLIC_CUSTOM_API_INCLUDE_MIME_TYPE="false"
支持的模型
Azure OpenAI、OpenRouter、LM Studio、Ollama、自定义API
在各AI服务中设置可用的多模态启用模型后,请启用"使用多模态"设置。
其他AI服务
支持多模态的模型带有摄像头图标,如下所示。
您也可以设置任意模型。
如果要使用多模态功能,请启用"使用多模态"设置。
Dify不支持多模态功能。
注意
与仅文本对话相比,多模态功能可能会产生更高的API使用费用。
使用方法
要利用多模态功能,请按照以下步骤操作:
- 在设置界面中选择兼容的AI服务和模型
- 选择适当的多模态功能使用时机模式
- AI判断
- 始终使用
- 不使用
- 启用网络摄像头或屏幕共享(如需要)
- 发送消息
多模态功能使用时机设置
- AI判断:仅当AI判断最近5条对话历史和图像相关时使用多模态功能。
- 始终使用:所有消息都使用多模态功能。
- 不使用:不使用多模态功能。
如果选择"AI判断",请设置判断用提示(使用默认值也可以)。
MIME类型设置
仅在使用自定义API时,可以设置是否包含图像的MIME类型。
我们已确认使用Mastra时需要包含MIME类型。
多模态相关功能说明
1. 多模态相关按钮
- 屏幕共享按钮:允许您选择要共享的屏幕
- 网络摄像头按钮:启动要共享的网络摄像头
- 图像上传按钮:允许您上传图像(仅在使用多模态时显示)
2. 共享屏幕/网络摄像头视频
显示来自共享屏幕或网络摄像头的视频。 此视频框可以通过拖拽移动。 您还可以通过点击并拖拽四角来调整视频显示区域的大小。
在此屏幕显示状态下发送消息时,将包含发送消息时刻的屏幕截图。 但是,如果已经上传了图像,则优先发送该图像。
视频操作按钮:
- 共享屏幕/摄像头切换按钮:在共享屏幕和网络摄像头视频之间切换
- 背景切换按钮:将共享屏幕或网络摄像头视频切换为背景
- 快门按钮:拍摄共享屏幕或网络摄像头视频的快照
3. 拍摄/上传图像
显示拍摄的图像或上传的图像。 在此处显示图像的状态下发送消息时,消息将包含此图像。
图像上传方法:
- 图像上传按钮:从文件选择对话框选择图像
- 拖放:也可以通过将图像文件拖放到屏幕上来上传图像
- 复制粘贴:也可以从剪贴板复制图像并粘贴到聊天栏中
- 拍摄功能:使用快门按钮从网络摄像头或共享屏幕拍摄
注意
为了优化输入上下文长度,API只发送最新的图像。过去会话中使用的图像在发送新消息时不会包含,请注意。
上传图像的配置可以从以下选项中选择:
- 输入区域:图像显示在聊天输入栏上方
- 侧面板:显示在主屏幕右侧(如上图所示)
- 图标:聊天输入栏显示剪贴图标(没有照片演示)
限制
- 每个AI服务对支持的输入格式和文件大小都有限制
- 高图像分辨率可能会减慢处理速度或增加成本
- 图像识别准确性可能因模型而异