多模态设置

概述

在AITuberKit中，您可以利用多模态功能实现不仅使用文本，还使用图像的更丰富交互体验。

环境变量:

bash

# Azure、OpenRouter、本地LLM、自定义API以及其他模型在自定义模型选择时的多模态功能启用设置
NEXT_PUBLIC_ENABLE_MULTIMODAL="true"

# 多模态功能使用时机设置
# ai-decide: AI判断, always: 始终使用, never: 不使用
NEXT_PUBLIC_MULTIMODAL_MODE="ai-decide"

# 选择ai-decide时，AI判断是否使用多模态功能的提示
NEXT_PUBLIC_MULTIMODAL_AI_DECISION_PROMPT="您是一个助手，用于判断图像是否与用户的问题或对话上下文相关。考虑最近的对话历史和用户消息，仅回答"是"或"否"。"

# 图像显示位置设置
# input: 输入区域, side: 侧面板, icon: 图标
NEXT_PUBLIC_IMAGE_DISPLAY_POSITION="input"

# 是否为图像包含MIME类型
NEXT_PUBLIC_CUSTOM_API_INCLUDE_MIME_TYPE="false"

支持的模型

Azure OpenAI、OpenRouter、LM Studio、Ollama、自定义API

在各AI服务中设置可用的多模态启用模型后，请启用"使用多模态"设置。

其他AI服务

支持多模态的模型带有摄像头图标，如下所示。

多模态兼容模型

您也可以设置任意模型。
如果要使用多模态功能，请启用"使用多模态"设置。

Dify不支持多模态功能。

注意

与仅文本对话相比，多模态功能可能会产生更高的API使用费用。

使用方法

要利用多模态功能，请按照以下步骤操作：

在设置界面中选择兼容的AI服务和模型
选择适当的多模态功能使用时机模式
- AI判断
- 始终使用
- 不使用
启用网络摄像头或屏幕共享（如需要）
发送消息

多模态功能使用时机设置

多模态设置

AI判断：仅当AI判断最近5条对话历史和图像相关时使用多模态功能。
始终使用：所有消息都使用多模态功能。
不使用：不使用多模态功能。

如果选择"AI判断"，请设置判断用提示（使用默认值也可以）。

MIME类型设置

仅在使用自定义API时，可以设置是否包含图像的MIME类型。
我们已确认使用Mastra时需要包含MIME类型。

多模态相关功能说明

多模态AI图像

1. 多模态相关按钮

屏幕共享按钮：允许您选择要共享的屏幕
网络摄像头按钮：启动要共享的网络摄像头
图像上传按钮：允许您上传图像（仅在使用多模态时显示）

2. 共享屏幕/网络摄像头视频

显示来自共享屏幕或网络摄像头的视频。此视频框可以通过拖拽移动。您还可以通过点击并拖拽四角来调整视频显示区域的大小。

在此屏幕显示状态下发送消息时，将包含发送消息时刻的屏幕截图。但是，如果已经上传了图像，则优先发送该图像。

视频操作按钮:

共享屏幕/摄像头切换按钮：在共享屏幕和网络摄像头视频之间切换
背景切换按钮：将共享屏幕或网络摄像头视频切换为背景
快门按钮：拍摄共享屏幕或网络摄像头视频的快照

3. 拍摄/上传图像

显示拍摄的图像或上传的图像。在此处显示图像的状态下发送消息时，消息将包含此图像。

图像上传方法:

图像上传按钮：从文件选择对话框选择图像
拖放：也可以通过将图像文件拖放到屏幕上来上传图像
复制粘贴：也可以从剪贴板复制图像并粘贴到聊天栏中
拍摄功能：使用快门按钮从网络摄像头或共享屏幕拍摄

注意

为了优化输入上下文长度，API只发送最新的图像。过去会话中使用的图像在发送新消息时不会包含，请注意。

上传图像的配置可以从以下选项中选择：

输入区域：图像显示在聊天输入栏上方
侧面板：显示在主屏幕右侧（如上图所示）
图标：聊天输入栏显示剪贴图标（没有照片演示）

限制

每个AI服务对支持的输入格式和文件大小都有限制
高图像分辨率可能会减慢处理速度或增加成本
图像识别准确性可能因模型而异

指南

角色设置

AI设置

其他

多模态设置

概述

支持的模型

Azure OpenAI、OpenRouter、LM Studio、Ollama、自定义API

其他AI服务

使用方法

多模态功能使用时机设置

MIME类型设置

多模态相关功能说明

1. 多模态相关按钮

2. 共享屏幕/网络摄像头视频

3. 拍摄/上传图像

限制

多模态设置 ​

概述 ​

支持的模型 ​

Azure OpenAI、OpenRouter、LM Studio、Ollama、自定义API ​

其他AI服务 ​

使用方法 ​

多模态功能使用时机设置 ​

MIME类型设置 ​

多模态相关功能说明 ​

1. 多模态相关按钮 ​

2. 共享屏幕/网络摄像头视频 ​

3. 拍摄/上传图像 ​

限制 ​

多模态设置

概述

支持的模型

Azure OpenAI、OpenRouter、LM Studio、Ollama、自定义API

其他AI服务

使用方法

多模态功能使用时机设置

MIME类型设置

多模态相关功能说明

1. 多模态相关按钮

2. 共享屏幕/网络摄像头视频

3. 拍摄/上传图像

限制