多模态设置
概述
多模态AI模型是能够理解和处理多种信息形式(模态)的AI模型,不仅包括文本,还包括图像和音频。在AITuberKit中,您可以利用这些多模态功能创建更丰富的交互体验。
环境变量:
bash
# 选择支持多模态的AI服务
# 支持多模态的服务: openai, anthropic, google, azure
NEXT_PUBLIC_SELECT_AI_SERVICE=openai
# 选择支持多模态的模型
NEXT_PUBLIC_SELECT_AI_MODEL=gpt-4o-2024-11-20
支持的模型
AITuberKit支持以下兼容多模态的AI服务和模型:
OpenAI
- gpt-4o-2024-11-20
- gpt-4.5-preview-2025-02-27
- gpt-4o-mini-2024-07-18
- chatgpt-4o-latest
Anthropic
- claude-3-5-sonnet-20241022
- claude-3-7-sonnet-20250219
- claude-3-opus-20240229
- claude-3-5-haiku-20241022
Google Gemini
- gemini-2.0-flash-001
- gemini-1.5-flash-latest
- gemini-1.5-flash-8b-latest
- gemini-1.5-pro-latest
Azure OpenAI Service
- 取决于Azure门户中的设置
使用方法
要利用多模态功能,请按照以下步骤操作:
- 在设置界面中选择兼容的AI服务和模型
- 启用网络摄像头或屏幕共享(如需要)
- 发送消息
注意
与仅文本对话相比,多模态功能可能会产生更高的API使用费用。
多模态相关功能说明
1. 多模态相关按钮
选择兼容多模态的模型时会显示这些按钮。
- 屏幕共享按钮:允许您选择要共享的屏幕
- 网络摄像头按钮:启动要共享的网络摄像头
- 图像上传按钮:允许您上传图像
2. 共享屏幕/网络摄像头视频
显示来自共享屏幕或网络摄像头的视频。 当此屏幕显示时发送消息,消息将包含发送消息时的图像。 但是,如果此视频下方有图像,则优先发送该图像。
视频操作按钮:
- 共享屏幕/摄像头切换按钮:在共享屏幕和网络摄像头视频之间切换
- 快门按钮:拍摄共享屏幕或网络摄像头视频的快照
3. 捕获/上传的图像
显示捕获的图像或上传的图像。 当此处显示图像时发送消息,消息将包含此图像。
图像上传方法:
- 图像上传按钮:从文件选择对话框中选择图像
- 拖放:您也可以通过将图像文件拖放到聊天屏幕上来上传图像
- 捕获功能:使用快门按钮从网络摄像头或共享屏幕捕获
注意
为了优化输入上下文长度,API只发送最新的图像。过去会话中使用的图像在发送新消息时不会包含,请注意。
限制
- 每个AI服务对支持的输入格式和文件大小都有限制
- 高图像分辨率可能会减慢处理速度或增加成本
- 图像识别准确性可能因模型而异