# Day 7:加固、演示和验收 TODO 目标:把前 6 天做出的功能整理成可演示、可验收、可继续迭代的基础平台。Day 7 不再大规模扩功能,重点是修缺口、补测试、补日志、补文档、完成演示链路。 参考文档: - `document/development/agent plan/00_README.md` - `document/development/agent plan/05_development_roadmap.md` - `document/development/agent plan/09_observability_and_trace.md` - `document/development/agent plan/10_evaluation_and_testset.md` ## 0. 开始前检查 - [ ] 汇总 Day 1 未完成项。 - [ ] 汇总 Day 2 未完成项。 - [ ] 汇总 Day 3 未完成项。 - [ ] 汇总 Day 4 未完成项。 - [ ] 汇总 Day 5 未完成项。 - [ ] 汇总 Day 6 未完成项。 - [ ] 标记必须今天修复的问题。 - [ ] 标记可以进入下一阶段的问题。 - [ ] 冻结新增需求,只处理验收相关问题。 ## 1. 核心链路回归 - [ ] 回归资产列表接口。 - [ ] 回归规则详情接口。 - [ ] 回归 Markdown 保存。 - [ ] 回归版本列表。 - [ ] 回归版本切换。 - [ ] 回归审核接口。 - [ ] 回归上线拦截。 - [ ] 回归语义解析接口。 - [ ] 回归 Orchestrator 路由。 - [ ] 回归 User Agent 问答。 - [ ] 回归 Hermes 任务执行。 - [ ] 回归 AgentRun Trace。 - [ ] 回归 ToolCall 日志。 - [ ] 回归 AuditLog 日志。 验收证据: - [ ] 从前端能完成至少一条端到端演示路径。 ## 2. 权限和风险边界 - [ ] 未审核规则不能上线。 - [ ] rejected 规则不能上线。 - [ ] disabled 能力不能被调用。 - [ ] 用户请求付款必须拦截。 - [ ] 用户请求审批必须需要确认。 - [ ] Hermes 生成规则只能是 draft。 - [ ] Hermes 生成知识只能是 draft。 - [ ] User Agent 生成处理意见只能是草稿。 - [ ] 所有高风险动作响应中包含 `requires_confirmation`。 验收证据: - [ ] 不存在 MVP 期间绕过人工审核的路径。 ## 3. 审计和 Trace 补齐 - [ ] 规则保存写 AuditLog。 - [ ] 规则审核写 AuditLog。 - [ ] 规则上线写 AuditLog。 - [ ] Hermes 生成规则草稿写 AuditLog。 - [ ] Hermes 生成知识候选写 AuditLog。 - [ ] User Agent 草稿生成写 AuditLog。 - [ ] Orchestrator 每次运行有 AgentRun。 - [ ] 每次工具调用有 ToolCall。 - [ ] Trace 页面或接口能串起 run_id。 - [ ] 错误 Trace 包含 error_message。 验收证据: - [ ] 任意一条演示链路都能追溯到 run_id。 ## 4. 前端体验修补 - [ ] 任务规则中心列表无明显错位。 - [ ] 详情页无双 title。 - [ ] Hero title 高度紧凑。 - [ ] 返回列表栏高度正常。 - [ ] Markdown 编辑器和版本卡片底部对齐。 - [ ] 版本卡片不贴右侧。 - [ ] 当前版本标识不突兀。 - [ ] 日期列对齐。 - [ ] 弹窗文案清楚。 - [ ] 加载态可见。 - [ ] 错误态可见。 - [ ] 空态可见。 - [ ] 按钮禁用态可见。 - [ ] 窄屏不出现内容重叠。 验收证据: - [ ] 任务规则中心可以给业务用户演示,不需要解释 UI 异常。 ## 5. 测试补齐 - [ ] 运行后端现有测试。 - [ ] 运行新增模型测试。 - [ ] 运行新增 API 测试。 - [ ] 运行语义解析测试。 - [ ] 运行 Orchestrator 测试。 - [ ] 运行 User Agent 测试。 - [ ] 运行 Hermes 测试。 - [ ] 运行前端构建。 - [ ] 如果有前端测试,运行前端测试。 - [ ] 记录未能运行的测试和原因。 验收证据: - [ ] 测试结果写入本文件“测试记录”。 ## 6. 评测集 - [ ] 准备 5 条报销问题。 - [ ] 准备 5 条应收问题。 - [ ] 准备 5 条应付问题。 - [ ] 准备 3 条规则解释问题。 - [ ] 准备 3 条越权动作问题。 - [ ] 执行语义解析评测。 - [ ] 执行 User Agent 回答评测。 - [ ] 执行权限拦截评测。 - [ ] 记录失败样例。 - [ ] 为失败样例写下一阶段优化建议。 验收证据: - [ ] 可以说明 MVP 当前能力边界和准确率风险。 ## 7. 演示数据 - [ ] 准备 active 规则。 - [ ] 准备 pending 规则。 - [ ] 准备 rejected 规则。 - [ ] 准备至少一条报销数据。 - [ ] 准备至少一条应收数据。 - [ ] 准备至少一条应付数据。 - [ ] 准备至少一个 Hermes 任务。 - [ ] 准备至少一个 MCP Mock。 - [ ] 准备至少一个知识条目。 - [ ] 准备至少一个风险样例。 验收证据: - [ ] 演示不会因为没有数据而中断。 ## 8. 演示脚本 - [ ] 编写演示步骤 1:打开任务规则中心。 - [ ] 编写演示步骤 2:查看规则详情。 - [ ] 编写演示步骤 3:编辑 Markdown 并保存。 - [ ] 编写演示步骤 4:切换版本。 - [ ] 编写演示步骤 5:尝试上线未审核规则并被拦截。 - [ ] 编写演示步骤 6:输入用户问题。 - [ ] 编写演示步骤 7:查看语义本体结果。 - [ ] 编写演示步骤 8:查看 User Agent 回答。 - [ ] 编写演示步骤 9:手动触发 Hermes 任务。 - [ ] 编写演示步骤 10:查看 AgentRun Trace。 - [ ] 编写演示步骤 11:查看审计日志。 验收证据: - [ ] 新开发者按脚本可以复现演示。 ## 9. 文档收尾 - [ ] 更新一周计划完成情况。 - [ ] 更新剩余风险。 - [ ] 更新下一阶段开发建议。 - [ ] 更新接口清单。 - [ ] 更新数据模型清单。 - [ ] 更新前端页面清单。 - [ ] 更新评测结果。 - [ ] 更新演示脚本。 - [ ] 更新部署或启动说明。 验收证据: - [ ] 文档能指导下一周继续开发。 ## 10. 最终验收清单 - [ ] 任务规则中心可查看规则、技能、MCP、任务。 - [ ] 规则详情可编辑 Markdown。 - [ ] 规则详情可查看最近 5 个版本。 - [ ] 版本切换有确认弹窗。 - [ ] 审核者信息可见。 - [ ] 未审核规则不能上线。 - [ ] 语义本体 8 字段可返回。 - [ ] Orchestrator 能路由用户请求。 - [ ] Orchestrator 能路由定时任务。 - [ ] User Agent 能回答至少 3 类财务问题。 - [ ] Hermes 能执行至少 1 个任务。 - [ ] OCR Mock 接入点可用。 - [ ] 知识候选可生成。 - [ ] 规则草稿可生成。 - [ ] AgentRun Trace 可查。 - [ ] AuditLog 可查。 - [ ] 前端构建通过。 - [ ] 后端核心测试通过。 - [ ] 演示脚本可执行。 - [ ] 所有完成项已用 `[x] ~~...~~` 标记。 ## 测试记录 - [ ] 后端测试:未运行。 - [ ] 前端构建:未运行。 - [ ] 语义评测:未运行。 - [ ] 手动验收:未运行。 ## 阻塞记录 - [ ] 暂无。 ## 日终交接 - [ ] 写明本周最终完成内容。 - [ ] 写明未完成内容。 - [ ] 写明生产化前必须补齐内容。 - [ ] 写明下一周建议优先级。