OpenClaw 的图片识别与生成能力配置指南

发表于 2026-05-22 更新于 2026-06-04 分类于技术分享

OpenClaw 不仅能处理文本，还能「看懂」图片和「画出」图片。这篇文章带你了解背后的模型能力，以及如何在 OpenClaw 中配置和使用这些功能。

一、多模态模型的能力概览

在深入配置之前，先搞清楚几个概念：

能力类型	说明	OpenClaw 中的配置项
文本理解	处理文字输入、对话、推理	默认模型即可
图片识别	看懂图片内容、OCR 文字提取、物体识别	`imageModel`
图片生成	根据文字描述生成图片	`imageGenerationModel`
视频理解	分析视频内容（部分模型支持）	取决于所选模型
视频生成	根据文字生成视频（需特定模型）	插件或 API 调用
向量嵌入	将内容转为向量用于语义搜索	`memorySearch`

OpenClaw 的 image 和 image_generate 两个工具分别对应图片识别和图片生成能力，通过配置不同的模型来驱动。

1.1 在模型配置中声明能力（capabilities）

OpenClaw 允许你在 agents.defaults.models 中显式声明每个模型具备的能力（text / image），方便 OpenClaw 内部做能力路由和回退判断。这是参考 ~/.openclaw/openclaw.json 实际配置结构设计的。

配置示例：

"models": {
    "bailian/qwen3.5-plus": {
        "capabilities": {
            "text": true,
            "image": true
        }
    },
    "minimax-portal/MiniMax-M3": {
        "capabilities": {
            "text": true,
            "image": true
        }
    },
    "minimax-portal/MiniMax-M2.7": {
        "capabilities": {
            "text": true,
            "image": false
        }
    },
    "opencode-go/deepseek-v4-flash": {
        "capabilities": {
            "text": true,
            "image": false
        }
    },
    "minimax-portal/image-01": {
        "capabilities": {
            "text": false,
            "image": true,
            "imageGeneration": true
        }
    }
}

OpenClaw 怎么用 capabilities：

调用 image 工具时，OpenClaw 会优先看 imageModel.primary 指向的模型是否声明了 capabilities.image: true
如果没有配置 imageModel，OpenClaw 会自动回退到 model.primary，看它是否声明了 image: true
如果主对话模型也是纯文本（如 deepseek-v4-flash、MiniMax-M2.7），那图片识别会直接失败，此时需要在 imageModel 中明确指定一个多模态模型

💡 声明 capabilities 是一种「自描述」方式：让 OpenClaw 提前知道每个模型能干什么，避免每次调用都去试错，也让回退逻辑可控可预期。

二、主流多模态模型对比

国外模型

模型	图片识别	图片生成	视频理解	视频生成	特点
GPT-4o / GPT-4.1	✅	✅	✅	❌	多模态均衡，1M 上下文
Gemini 2.5 Pro	✅	✅	✅	❌	原生多模态，超长上下文
Claude 4 / 3.5 Sonnet	✅	❌	❌	❌	图片理解强，不支持生成

国内模型

模型	图片识别	图片生成	视频理解	视频生成	特点
Qwen3.5-Plus	✅	❌	✅	❌	阿里原生多模态，图文理解强
Qwen3.6-Plus	✅	❌	✅	❌	增强 Agentic Coding，多模态输入
MiniMax-M2.7	❌	❌	❌	❌	纯文本模型，专注 Coding 和 Agent，不支持多模态
MiniMax-M2.5	❌	❌	❌	❌	纯文本模型，同上
MiniMax-M3	✅	❌	❌	❌	新一代原生多模态模型，原生支持文字和图片输入，编码能力强
MiniMax image-01	❌	✅	❌	❌	专用图片生成模型
GLM-5 / GLM-4.7	✅	❌	✅	❌	智谱多模态，中文优化
Kimi K2.5 / K2.6	✅	❌	✅	❌	月之暗面，超长上下文

💡 关键区别：图片识别（看懂图片）和图片生成（画图）是两套不同的模型。通常一个模型只擅长其中一项，所以 OpenClaw 需要分别配置。

⚠️ 关于 MiniMax：

MiniMax-M2.7 / M2.5 自身是纯文本模型，不支持图片输入。但如果你通过 minimax-portal 提供商（OAuth 登录）使用 OpenClaw，它会自动启用 MiniMax 的 Image Understanding MCP 能力，实现图片识别。

MiniMax-M3 是 MiniMax 的新一代原生多模态模型，原生支持文字和图片输入，无需借助 MCP 即可识别图片。这是模型本身的能力提升。

MiniMax image-01 仍是专用图片生成模型。

以阿里为例

阿里百炼平台的通义千问系列中：

Qwen3.5-Plus / Qwen3.6-Plus：支持图片、视频输入，具备强大的图像识别和理解能力，但不支持图片生成
如果需要图片生成，则需要搭配专门的图像生成模型

以 MiniMax 为例

MiniMax 系列目前分三类：

MiniMax-M2.7 / M2.5：纯文本模型，不支持图片输入。如果通过 minimax-portal OAuth 使用，OpenClaw 会自动启用 Image Understanding MCP 来提供图片识别能力
MiniMax-M3：新一代原生多模态模型，原生支持文字和图片输入，模型自己就能识别图片，不需要 MCP
MiniMax image-01：专门的图片生成模型，根据文字生成高质量图片，支持多种风格和比例

三、配置图片能力

OpenClaw 通过两个配置项分别控制图片识别和图片生成能力：

配置项	作用	推荐模型
`imageModel`	图片识别（看懂图片）	`bailian/qwen3.5-plus` 或 `minimax-portal/MiniMax-M3`
`imageGenerationModel`	图片生成（画出图片）	`minimax-portal/image-01`

配置路径示意

gateway
└── agents
    └── defaults
        ├── model                  ← 对话模型
        ├── models                 ← 模型清单（含 capabilities 声明）
        ├── imageModel             ← 图片识别模型
        └── imageGenerationModel   ← 图片生成模型

下面分别介绍各项配置的具体方法。

3.1 配置图片识别（imageModel）

查看当前配置：

1	cat ~/.openclaw/openclaw.json \| grep -A 3 '"imageModel"'

如果没有输出，说明未配置。在 agents.defaults 中添加：

1
2
3

"imageModel": {
    "primary": "bailian/qwen3.5-plus"
}

💡 推荐模型：

bailian/qwen3.5-plus：阿里百炼的通义千问多模态模型，图片理解能力出色，中文支持好

minimax-portal/MiniMax-M3：MiniMax 新一代原生多模态模型，原生支持文字+图片输入

bailian/qwen3.6-plus：更新版

⚠️ 关于 imageModel 的回退行为（重要！）

如果你没有显式配置 imageModel，OpenClaw 会自动回退到 model.primary（主对话模型）尝试识别图片：

主对话模型多模态？能否识别图片

bailian/qwen3.5-plus ✅ ✅ 复用主模型识别

minimax-portal/MiniMax-M3 ✅ ✅ 复用主模型识别

opencode-go/deepseek-v4-flash ❌ ❌ 识别失败

minimax-portal/MiniMax-M2.7 ❌ ❌ 识别失败（需依赖 Image Understanding MCP）

最佳实践：无论主对话模型是否多模态，都建议显式配置 imageModel，避免依赖回退逻辑导致行为不可预期。如果主对话模型就是多模态的（如 qwen3.5-plus 或 MiniMax-M3），可以把 imageModel.primary 设成同一个模型。

主对话模型	多模态？	能否识别图片
`bailian/qwen3.5-plus`	✅	✅ 复用主模型识别
`minimax-portal/MiniMax-M3`	✅	✅ 复用主模型识别
`opencode-go/deepseek-v4-flash`	❌	❌ 识别失败
`minimax-portal/MiniMax-M2.7`	❌	❌ 识别失败（需依赖 Image Understanding MCP）

3.2 配置图片生成（imageGenerationModel）

查看当前配置：

1	cat ~/.openclaw/openclaw.json \| grep -A 3 '"imageGenerationModel"'

在 agents.defaults 中添加：

1
2
3

"imageGenerationModel": {
    "primary": "minimax-portal/image-01"
}

💡 推荐模型：minimax-portal/image-01 是 MiniMax 的专用图片生成模型，生成质量高，支持多种比例和风格。

⚠️ 图片生成没有回退：目前没有任何模型同时支持图片识别 + 图片生成（识图和画图是两套不同能力），所以 imageGenerationModel 不会被回退。如果不配置，调用 image_generate 会直接报错。

3.3 让 OpenClaw 自己配置（推荐）

不想手动改文件？直接告诉 OpenClaw 就行：

“帮我配置图片识别模型，用 qwen3.5-plus”
“帮我配置图片生成模型，用 minimax-portal/image-01”

OpenClaw 会自动编辑配置文件并重启 Gateway。

3.4 完整配置示例

包含 model / models（含 capabilities）/ imageModel / imageGenerationModel 的完整配置：

"agents": {
    "defaults": {
        "model": {
            "primary": "opencode-go/deepseek-v4-flash",
            "fallbacks": [
                "minimax-portal/MiniMax-M3",
                "bailian/qwen3.5-plus"
            ]
        },
        "models": {
            "opencode-go/deepseek-v4-flash": {
                "capabilities": {
                    "text": true,
                    "image": false
                }
            },
            "bailian/qwen3.5-plus": {
                "capabilities": {
                    "text": true,
                    "image": true
                }
            },
            "minimax-portal/MiniMax-M3": {
                "capabilities": {
                    "text": true,
                    "image": true
                }
            },
            "minimax-portal/MiniMax-M2.7": {
                "capabilities": {
                    "text": true,
                    "image": false
                }
            },
            "minimax-portal/image-01": {
                "capabilities": {
                    "text": false,
                    "image": true,
                    "imageGeneration": true
                }
            }
        },
        "imageModel": {
            "primary": "bailian/qwen3.5-plus"
        },
        "imageGenerationModel": {
            "primary": "minimax-portal/image-01"
        }
    }
}

💡 关键点：上面这个例子里，主对话模型 deepseek-v4-flash 是纯文本的，所以必须显式配置 imageModel.primary 为多模态模型（如 qwen3.5-plus），否则图片识别会失败。如果你的主对话模型本身就是多模态的（如 qwen3.5-plus 或 MiniMax-M3），可以省去这步。

四、测试效果

4.1 测试图片识别

给 OpenClaw 发一张图片，让它描述内容：

“这张图里有什么？”

OpenClaw 会调用 image 工具，将图片传给配置的 imageModel 进行分析并返回结果。

示例效果（我自己的测试）：

1 2	用户：这张图里有什么？ → OpenClaw 调用 image 工具 → qwen3.5-plus 分析 → 返回描述

4.2 测试图片生成

让 OpenClaw 生成一张图片：

“帮我生成一张小狗的图片”

OpenClaw 会调用 image_generate 工具，使用配置的 imageGenerationModel 生成图片。

示例效果（我自己的测试）：

1 2	用户：生成一只小狗的图片 → OpenClaw 调用 image_generate → minimax-portal/image-01 生成 → 返回图片

4.3 发送生成的图片

图片生成完成后，OpenClaw 需要通过 message 工具 把图片发送给你。这是因为图片生成是后台任务，生成的图片需要主动投递到对话中。

流程如下：

你让 OpenClaw 生成图片
  → OpenClaw 调用 image_generate（后台任务）
  → 图片生成完成
  → OpenClaw 收到完成通知
  → 调用 message 工具将图片发送给你 ✅

五、常见问题

Q: 配置了 imageModel 但图片识别不工作？

A: 检查三件事：

确认 imageModel.primary 指向的模型本身支持图片输入（如 qwen3.5-plus、MiniMax-M3），不是所有模型都支持多模态
确认该模型在 models 里的 capabilities.image 是 true（如果没声明，OpenClaw 默认按「未知」处理，可能走不到识别路径）
如果是完全没配 imageModel 且主对话模型是纯文本，那一定不会识别，需要明确指定

Q: 主对话模型换成 MiniMax-M3 后图片识别不好使了？

A: 检查一下 imageModel 是否显式配置了。MiniMax-M3 是原生多模态模型，但不会自动接管 imageModel 角色——OpenClaw 的图片识别仍然走 imageModel 配置。如果你希望用 M3 识别图片，要把 imageModel.primary 设为 minimax-portal/MiniMax-M3，或者完全删掉 imageModel 配置让它回退到主对话模型。

Q: 图片生成特别慢？

A: image_generate 是后台异步任务，生成时间取决于模型服务端的负载。通常 10-30 秒完成。

Q: 生成的图片怎么没显示在对话里？

A: 检查 OpenClaw 的 message 工具权限是否正确。OpenClaw 需要通过 message 工具把图片发送回来。

Q: 想让 OpenClaw 同时能识图和画图，需要几个模型？

A: 至少需要 2 个模型（一个负责识图，一个负责画图），目前没有任何模型同时支持这两种能力：

识图：imageModel.primary，推荐 bailian/qwen3.5-plus 或 minimax-portal/MiniMax-M3
画图：imageGenerationModel.primary，推荐 minimax-portal/image-01

总结

能力	配置项	推荐模型	主要工具
图片识别	`imageModel`	`bailian/qwen3.5-plus` / `minimax-portal/MiniMax-M3`	`image`
图片生成	`imageGenerationModel`	`minimax-portal/image-01`	`image_generate`

记住三条核心原则：

图片识别和图片生成是两套模型，需要分别配置
imageModel 可以回退到主对话模型，但前提是主对话模型在 capabilities 中声明了 image: true，否则需要显式指定
不在 models 里声明 capabilities，OpenClaw 就按「未知」处理，回退逻辑可能不生效。建议显式声明每个模型的能力

文章二维码