--- name: openakita/skills@image-understanding description: Analyze images using Dashscope (Qwen) Vision models. Supports detailed description, OCR text extraction, object recognition, and visual Q&A. When you need to understand image content using Alibaba Cloud Dashscope API. --- # 图片理解技能 (Image Understanding) 使用 **Dashscope(通义千问)** 视觉模型分析图片,支持详细描述、OCR文字提取、物体识别和图片问答。 --- ## 简介 图片理解技能是一个强大的视觉分析工具,通过调用 Dashscope(阿里云通义千问)的视觉大模型(qwen-vl-plus、qwen-vl-max),让 AI 能够理解和分析图像内容。 **核心功能:** - 🖼️ 图片内容详细描述 - 🔤 文字提取(OCR) - 🎯 物体识别 - 💬 图片问答 --- ## 使用场景 ### 📄 文档处理 - 会议白板照片转文字 - 纸质文档扫描识别 - 手写笔记数字化 ### 🛒 工作应用 - 产品图片分析 - 竞品图片提取信息 - 图表数据解读 ### 💬 图片问答 - 针对图片提问获取答案 - 理解复杂场景细节 - 技术图纸逻辑分析 --- ## 环境配置 ### 1️⃣ 安装依赖 ```bash pip install requests ``` ### 2️⃣ 获取 Dashscope API Key 1. 访问 [Dashscope 控制台](https://dashscope.console.aliyun.com/) 2. 创建账号并开通服务 3. 创建 API Key ### 3️⃣ 配置 API Key ```bash # 方式一:环境变量(推荐) set DASHSCOPE_API_KEY=sk-your-api-key-here # 方式二:运行时传入(见下方) ``` --- ## 使用方法 ### 基本命令 ```bash python scripts/image_understanding.py -i 图片路径 [选项] ``` ### 常用参数 | 参数 | 说明 | |------|------| | `-i, --image` | **必填** 图片路径或URL | | `-m, --model` | 模型选择:`qwen-vl-plus`(默认) 或 `qwen-vl-max` | | `-p, --custom-prompt` | 自定义分析提示词 | | `-e, --extract-text` | 提取文字(OCR) | | `-o, --identify-objects` | 识别物体 | | `--compact` | 输出紧凑JSON | ### 使用示例 ```bash # 1. 基本描述(默认) python scripts/image_understanding.py -i photo.jpg # 2. 提取文字 python scripts/image_understanding.py -i screenshot.png -e # 3. 识别物体 python scripts/image_understanding.py -i photo.jpg -o # 4. 自定义问答 python scripts/image_understanding.py -i photo.jpg -p "这个产品多少钱?" # 5. 使用更强的模型 python scripts/image_understanding.py -i photo.jpg -m qwen-vl-max # 6. 网络图片 python scripts/image_understanding.py -i "https://example.com/image.png" -e # 7. 设置API Key后运行 set DASHSCOPE_API_KEY=sk-xxx python scripts/image_understanding.py -i photo.jpg ``` --- ## 最佳实践 ### 📸 图片质量 - 确保图片清晰、亮度充足 - 文字图片分辨率不低于 640x640 - 避免模糊或过暗的图片 ### 💡 提示词技巧 - 使用具体、明确的指令 - 指定关注点(如"重点关注价格标签") - 多语言场景可混合中英文 ### ✅ 结果验证 - 重要信息建议人工复核 - 涉及专业领域需专家确认 - 妥善保存原始图片和分析结果 --- ## API 配置 | 配置项 | 值 | |--------|-----| | 服务商 | Dashscope (通义千问) | | 默认模型 | qwen-vl-plus | | 高级模型 | qwen-vl-max | | API Base | `https://dashscope.aliyuncs.com/compatible-mode/v1` | | 环境变量 | `DASHSCOPE_API_KEY` | --- ## 故障排除 | 问题 | 解决方案 | |------|----------| | API Key 错误 | 检查 `DASHSCOPE_API_KEY` 是否正确 | | 图片格式不支持 | 使用 PNG/JPG/GIF/WEBP/BMP 格式 | | 网络超时 | 检查网络连接,尝试使用代理 | | 识别不准确 | 提高图片质量,添加更详细的提示词 | --- 运行 `python scripts/image_understanding.py --help` 查看完整帮助