Files
X-Agents/account/admin/skills/image-understanding/SKILL.md
2026-03-11 16:26:22 +08:00

158 lines
3.7 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters
This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
name: openakita/skills@image-understanding
description: Analyze images using Dashscope (Qwen) Vision models. Supports detailed description, OCR text extraction, object recognition, and visual Q&A. When you need to understand image content using Alibaba Cloud Dashscope API.
---
# 图片理解技能 (Image Understanding)
使用 **Dashscope通义千问** 视觉模型分析图片支持详细描述、OCR文字提取、物体识别和图片问答。
---
## 简介
图片理解技能是一个强大的视觉分析工具,通过调用 Dashscope阿里云通义千问的视觉大模型qwen-vl-plus、qwen-vl-max让 AI 能够理解和分析图像内容。
**核心功能:**
- 🖼️ 图片内容详细描述
- 🔤 文字提取OCR
- 🎯 物体识别
- 💬 图片问答
---
## 使用场景
### 📄 文档处理
- 会议白板照片转文字
- 纸质文档扫描识别
- 手写笔记数字化
### 🛒 工作应用
- 产品图片分析
- 竞品图片提取信息
- 图表数据解读
### 💬 图片问答
- 针对图片提问获取答案
- 理解复杂场景细节
- 技术图纸逻辑分析
---
## 环境配置
### 1⃣ 安装依赖
```bash
pip install requests
```
### 2⃣ 获取 Dashscope API Key
1. 访问 [Dashscope 控制台](https://dashscope.console.aliyun.com/)
2. 创建账号并开通服务
3. 创建 API Key
### 3⃣ 配置 API Key
```bash
# 方式一:环境变量(推荐)
set DASHSCOPE_API_KEY=sk-your-api-key-here
# 方式二:运行时传入(见下方)
```
---
## 使用方法
### 基本命令
```bash
python scripts/image_understanding.py -i 图片路径 [选项]
```
### 常用参数
| 参数 | 说明 |
|------|------|
| `-i, --image` | **必填** 图片路径或URL |
| `-m, --model` | 模型选择:`qwen-vl-plus`(默认) 或 `qwen-vl-max` |
| `-p, --custom-prompt` | 自定义分析提示词 |
| `-e, --extract-text` | 提取文字(OCR) |
| `-o, --identify-objects` | 识别物体 |
| `--compact` | 输出紧凑JSON |
### 使用示例
```bash
# 1. 基本描述(默认)
python scripts/image_understanding.py -i photo.jpg
# 2. 提取文字
python scripts/image_understanding.py -i screenshot.png -e
# 3. 识别物体
python scripts/image_understanding.py -i photo.jpg -o
# 4. 自定义问答
python scripts/image_understanding.py -i photo.jpg -p "这个产品多少钱?"
# 5. 使用更强的模型
python scripts/image_understanding.py -i photo.jpg -m qwen-vl-max
# 6. 网络图片
python scripts/image_understanding.py -i "https://example.com/image.png" -e
# 7. 设置API Key后运行
set DASHSCOPE_API_KEY=sk-xxx
python scripts/image_understanding.py -i photo.jpg
```
---
## 最佳实践
### 📸 图片质量
- 确保图片清晰、亮度充足
- 文字图片分辨率不低于 640x640
- 避免模糊或过暗的图片
### 💡 提示词技巧
- 使用具体、明确的指令
- 指定关注点(如"重点关注价格标签"
- 多语言场景可混合中英文
### ✅ 结果验证
- 重要信息建议人工复核
- 涉及专业领域需专家确认
- 妥善保存原始图片和分析结果
---
## API 配置
| 配置项 | 值 |
|--------|-----|
| 服务商 | Dashscope (通义千问) |
| 默认模型 | qwen-vl-plus |
| 高级模型 | qwen-vl-max |
| API Base | `https://dashscope.aliyuncs.com/compatible-mode/v1` |
| 环境变量 | `DASHSCOPE_API_KEY` |
---
## 故障排除
| 问题 | 解决方案 |
|------|----------|
| API Key 错误 | 检查 `DASHSCOPE_API_KEY` 是否正确 |
| 图片格式不支持 | 使用 PNG/JPG/GIF/WEBP/BMP 格式 |
| 网络超时 | 检查网络连接,尝试使用代理 |
| 识别不准确 | 提高图片质量,添加更详细的提示词 |
---
运行 `python scripts/image_understanding.py --help` 查看完整帮助