Skip to content

多模态设置

概述

多模态AI模型是能够理解和处理多种信息形式(模态)的AI模型,不仅包括文本,还包括图像和音频。在AITuberKit中,您可以利用这些多模态功能创建更丰富的交互体验。

环境变量:

bash
# 选择支持多模态的AI服务
# 支持多模态的服务: openai, anthropic, google, azure
NEXT_PUBLIC_SELECT_AI_SERVICE=openai

# 选择支持多模态的模型
NEXT_PUBLIC_SELECT_AI_MODEL=gpt-4o-2024-11-20

支持的模型

AITuberKit支持以下兼容多模态的AI服务和模型:

OpenAI

  • gpt-4o-2024-11-20
  • gpt-4.5-preview-2025-02-27
  • gpt-4o-mini-2024-07-18
  • chatgpt-4o-latest

Anthropic

  • claude-3-5-sonnet-20241022
  • claude-3-7-sonnet-20250219
  • claude-3-opus-20240229
  • claude-3-5-haiku-20241022

Google Gemini

  • gemini-2.0-flash-001
  • gemini-1.5-flash-latest
  • gemini-1.5-flash-8b-latest
  • gemini-1.5-pro-latest

Azure OpenAI Service

  • 取决于Azure门户中的设置

使用方法

要利用多模态功能,请按照以下步骤操作:

  1. 在设置界面中选择兼容的AI服务和模型
  2. 启用网络摄像头或屏幕共享(如需要)
  3. 发送消息

注意

与仅文本对话相比,多模态功能可能会产生更高的API使用费用。

多模态AI图像

多模态相关功能说明

1. 多模态相关按钮

选择兼容多模态的模型时会显示这些按钮。

  • 屏幕共享按钮:允许您选择要共享的屏幕
  • 网络摄像头按钮:启动要共享的网络摄像头
  • 图像上传按钮:允许您上传图像

2. 共享屏幕/网络摄像头视频

显示来自共享屏幕或网络摄像头的视频。 当此屏幕显示时发送消息,消息将包含发送消息时的图像。 但是,如果此视频下方有图像,则优先发送该图像。

视频操作按钮:

  • 共享屏幕/摄像头切换按钮:在共享屏幕和网络摄像头视频之间切换
  • 快门按钮:拍摄共享屏幕或网络摄像头视频的快照

3. 捕获/上传的图像

显示捕获的图像或上传的图像。 当此处显示图像时发送消息,消息将包含此图像。

图像上传方法:

  • 图像上传按钮:从文件选择对话框中选择图像
  • 拖放:您也可以通过将图像文件拖放到聊天屏幕上来上传图像
  • 捕获功能:使用快门按钮从网络摄像头或共享屏幕捕获

注意

为了优化输入上下文长度,API只发送最新的图像。过去会话中使用的图像在发送新消息时不会包含,请注意。

限制

  • 每个AI服务对支持的输入格式和文件大小都有限制
  • 高图像分辨率可能会减慢处理速度或增加成本
  • 图像识别准确性可能因模型而异