Files
X-Agents/account/admin/skills/image-understanding/SKILL.md

158 lines
3.7 KiB
Markdown
Raw Normal View History

---
name: openakita/skills@image-understanding
description: Analyze images using Dashscope (Qwen) Vision models. Supports detailed description, OCR text extraction, object recognition, and visual Q&A. When you need to understand image content using Alibaba Cloud Dashscope API.
---
# 图片理解技能 (Image Understanding)
使用 **Dashscope通义千问** 视觉模型分析图片支持详细描述、OCR文字提取、物体识别和图片问答。
---
## 简介
图片理解技能是一个强大的视觉分析工具,通过调用 Dashscope阿里云通义千问的视觉大模型qwen-vl-plus、qwen-vl-max让 AI 能够理解和分析图像内容。
**核心功能:**
- 🖼️ 图片内容详细描述
- 🔤 文字提取OCR
- 🎯 物体识别
- 💬 图片问答
---
## 使用场景
### 📄 文档处理
- 会议白板照片转文字
- 纸质文档扫描识别
- 手写笔记数字化
### 🛒 工作应用
- 产品图片分析
- 竞品图片提取信息
- 图表数据解读
### 💬 图片问答
- 针对图片提问获取答案
- 理解复杂场景细节
- 技术图纸逻辑分析
---
## 环境配置
### 1⃣ 安装依赖
```bash
pip install requests
```
### 2⃣ 获取 Dashscope API Key
1. 访问 [Dashscope 控制台](https://dashscope.console.aliyun.com/)
2. 创建账号并开通服务
3. 创建 API Key
### 3⃣ 配置 API Key
```bash
# 方式一:环境变量(推荐)
set DASHSCOPE_API_KEY=sk-your-api-key-here
# 方式二:运行时传入(见下方)
```
---
## 使用方法
### 基本命令
```bash
python scripts/image_understanding.py -i 图片路径 [选项]
```
### 常用参数
| 参数 | 说明 |
|------|------|
| `-i, --image` | **必填** 图片路径或URL |
| `-m, --model` | 模型选择:`qwen-vl-plus`(默认) 或 `qwen-vl-max` |
| `-p, --custom-prompt` | 自定义分析提示词 |
| `-e, --extract-text` | 提取文字(OCR) |
| `-o, --identify-objects` | 识别物体 |
| `--compact` | 输出紧凑JSON |
### 使用示例
```bash
# 1. 基本描述(默认)
python scripts/image_understanding.py -i photo.jpg
# 2. 提取文字
python scripts/image_understanding.py -i screenshot.png -e
# 3. 识别物体
python scripts/image_understanding.py -i photo.jpg -o
# 4. 自定义问答
python scripts/image_understanding.py -i photo.jpg -p "这个产品多少钱?"
# 5. 使用更强的模型
python scripts/image_understanding.py -i photo.jpg -m qwen-vl-max
# 6. 网络图片
python scripts/image_understanding.py -i "https://example.com/image.png" -e
# 7. 设置API Key后运行
set DASHSCOPE_API_KEY=sk-xxx
python scripts/image_understanding.py -i photo.jpg
```
---
## 最佳实践
### 📸 图片质量
- 确保图片清晰、亮度充足
- 文字图片分辨率不低于 640x640
- 避免模糊或过暗的图片
### 💡 提示词技巧
- 使用具体、明确的指令
- 指定关注点(如"重点关注价格标签"
- 多语言场景可混合中英文
### ✅ 结果验证
- 重要信息建议人工复核
- 涉及专业领域需专家确认
- 妥善保存原始图片和分析结果
---
## API 配置
| 配置项 | 值 |
|--------|-----|
| 服务商 | Dashscope (通义千问) |
| 默认模型 | qwen-vl-plus |
| 高级模型 | qwen-vl-max |
| API Base | `https://dashscope.aliyuncs.com/compatible-mode/v1` |
| 环境变量 | `DASHSCOPE_API_KEY` |
---
## 故障排除
| 问题 | 解决方案 |
|------|----------|
| API Key 错误 | 检查 `DASHSCOPE_API_KEY` 是否正确 |
| 图片格式不支持 | 使用 PNG/JPG/GIF/WEBP/BMP 格式 |
| 网络超时 | 检查网络连接,尝试使用代理 |
| 识别不准确 | 提高图片质量,添加更详细的提示词 |
---
运行 `python scripts/image_understanding.py --help` 查看完整帮助