Skip to content

多模态设置

概述

在AITuberKit中,您可以利用多模态功能实现不仅使用文本,还使用图像的更丰富交互体验。

环境变量:

bash
# Azure、OpenRouter、本地LLM、自定义API以及其他模型在自定义模型选择时的多模态功能启用设置
NEXT_PUBLIC_ENABLE_MULTIMODAL="true"

# 多模态功能使用时机设置
# ai-decide: AI判断, always: 始终使用, never: 不使用
NEXT_PUBLIC_MULTIMODAL_MODE="ai-decide"

# 选择ai-decide时,AI判断是否使用多模态功能的提示
NEXT_PUBLIC_MULTIMODAL_AI_DECISION_PROMPT="您是一个助手,用于判断图像是否与用户的问题或对话上下文相关。考虑最近的对话历史和用户消息,仅回答"是"或"否"。"

# 图像显示位置设置
# input: 输入区域, side: 侧面板, icon: 图标
NEXT_PUBLIC_IMAGE_DISPLAY_POSITION="input"

# 是否为图像包含MIME类型
NEXT_PUBLIC_CUSTOM_API_INCLUDE_MIME_TYPE="false"

支持的模型

Azure OpenAI、OpenRouter、LM Studio、Ollama、自定义API

在各AI服务中设置可用的多模态启用模型后,请启用"使用多模态"设置。

其他AI服务

支持多模态的模型带有摄像头图标,如下所示。

多模态兼容模型

您也可以设置任意模型。
如果要使用多模态功能,请启用"使用多模态"设置。

Dify不支持多模态功能。

注意

与仅文本对话相比,多模态功能可能会产生更高的API使用费用。

使用方法

要利用多模态功能,请按照以下步骤操作:

  1. 在设置界面中选择兼容的AI服务和模型
  2. 选择适当的多模态功能使用时机模式
    • AI判断
    • 始终使用
    • 不使用
  3. 启用网络摄像头或屏幕共享(如需要)
  4. 发送消息

多模态功能使用时机设置

多模态设置

  • AI判断:仅当AI判断最近5条对话历史和图像相关时使用多模态功能。
  • 始终使用:所有消息都使用多模态功能。
  • 不使用:不使用多模态功能。

如果选择"AI判断",请设置判断用提示(使用默认值也可以)。

MIME类型设置

仅在使用自定义API时,可以设置是否包含图像的MIME类型。
我们已确认使用Mastra时需要包含MIME类型。

多模态相关功能说明

多模态AI图像

1. 多模态相关按钮

  • 屏幕共享按钮:允许您选择要共享的屏幕
  • 网络摄像头按钮:启动要共享的网络摄像头
  • 图像上传按钮:允许您上传图像(仅在使用多模态时显示)

2. 共享屏幕/网络摄像头视频

显示来自共享屏幕或网络摄像头的视频。 此视频框可以通过拖拽移动。 您还可以通过点击并拖拽四角来调整视频显示区域的大小。

在此屏幕显示状态下发送消息时,将包含发送消息时刻的屏幕截图。 但是,如果已经上传了图像,则优先发送该图像。

视频操作按钮:

  • 共享屏幕/摄像头切换按钮:在共享屏幕和网络摄像头视频之间切换
  • 背景切换按钮:将共享屏幕或网络摄像头视频切换为背景
  • 快门按钮:拍摄共享屏幕或网络摄像头视频的快照

3. 拍摄/上传图像

显示拍摄的图像或上传的图像。 在此处显示图像的状态下发送消息时,消息将包含此图像。

图像上传方法:

  • 图像上传按钮:从文件选择对话框选择图像
  • 拖放:也可以通过将图像文件拖放到屏幕上来上传图像
  • 复制粘贴:也可以从剪贴板复制图像并粘贴到聊天栏中
  • 拍摄功能:使用快门按钮从网络摄像头或共享屏幕拍摄

注意

为了优化输入上下文长度,API只发送最新的图像。过去会话中使用的图像在发送新消息时不会包含,请注意。

上传图像的配置可以从以下选项中选择:

  • 输入区域:图像显示在聊天输入栏上方
  • 侧面板:显示在主屏幕右侧(如上图所示)
  • 图标:聊天输入栏显示剪贴图标(没有照片演示)

限制

  • 每个AI服务对支持的输入格式和文件大小都有限制
  • 高图像分辨率可能会减慢处理速度或增加成本
  • 图像识别准确性可能因模型而异