261 lines
7.4 KiB
Markdown
261 lines
7.4 KiB
Markdown
|
|
# Day 7:加固、演示和验收
|
|||
|
|
|
|||
|
|
## 今天的大开发点
|
|||
|
|
|
|||
|
|
不再大规模扩功能,集中做回归、加固、测试、演示脚本、文档收尾和下一阶段交接。
|
|||
|
|
|
|||
|
|
## 为什么第七天做这个
|
|||
|
|
|
|||
|
|
一周开发不能只停留在“代码写了”。必须能演示、能追溯、能说清楚边界、能交给下一阶段继续开发。
|
|||
|
|
|
|||
|
|
## 今天主要交付
|
|||
|
|
|
|||
|
|
- 核心链路回归。
|
|||
|
|
- 权限和风险边界复查。
|
|||
|
|
- 审计日志补齐。
|
|||
|
|
- AgentRun Trace 补齐。
|
|||
|
|
- 前端体验修补。
|
|||
|
|
- 测试和构建记录。
|
|||
|
|
- 评测集执行记录。
|
|||
|
|
- 演示数据准备。
|
|||
|
|
- 演示脚本。
|
|||
|
|
- 下一阶段开发建议。
|
|||
|
|
|
|||
|
|
相关架构文档:
|
|||
|
|
|
|||
|
|
- [Agent Plan 总览](<../agent plan/00_README.md>)
|
|||
|
|
- [开发路线图](<../agent plan/05_development_roadmap.md>)
|
|||
|
|
- [观测与 Trace](<../agent plan/09_observability_and_trace.md>)
|
|||
|
|
- [评测与测试集](<../agent plan/10_evaluation_and_testset.md>)
|
|||
|
|
|
|||
|
|
## 当天验收门槛
|
|||
|
|
|
|||
|
|
- 任务规则中心核心路径可演示。
|
|||
|
|
- 语义本体、Orchestrator、User Agent、Hermes 都能跑通最小链路。
|
|||
|
|
- 未审核规则、高风险动作、自动付款等边界都被拦截。
|
|||
|
|
- AgentRun、ToolCall、AuditLog 可追溯。
|
|||
|
|
- 有测试记录、演示脚本和交接说明。
|
|||
|
|
|
|||
|
|
## 今天不做
|
|||
|
|
|
|||
|
|
- 不做新大功能。
|
|||
|
|
- 不临时扩大范围。
|
|||
|
|
- 不绕过测试和验收。
|
|||
|
|
|
|||
|
|
## 详细执行清单
|
|||
|
|
|
|||
|
|
以下内容为合并后的详细执行清单。
|
|||
|
|
|
|||
|
|
## 0. 开始前检查
|
|||
|
|
|
|||
|
|
- [ ] 汇总 Day 1 未完成项。
|
|||
|
|
- [ ] 汇总 Day 2 未完成项。
|
|||
|
|
- [ ] 汇总 Day 3 未完成项。
|
|||
|
|
- [ ] 汇总 Day 4 未完成项。
|
|||
|
|
- [ ] 汇总 Day 5 未完成项。
|
|||
|
|
- [ ] 汇总 Day 6 未完成项。
|
|||
|
|
- [ ] 标记必须今天修复的问题。
|
|||
|
|
- [ ] 标记可以进入下一阶段的问题。
|
|||
|
|
- [ ] 冻结新增需求,只处理验收相关问题。
|
|||
|
|
|
|||
|
|
## 1. 核心链路回归
|
|||
|
|
|
|||
|
|
- [ ] 回归资产列表接口。
|
|||
|
|
- [ ] 回归规则详情接口。
|
|||
|
|
- [ ] 回归 Markdown 保存。
|
|||
|
|
- [ ] 回归版本列表。
|
|||
|
|
- [ ] 回归版本切换。
|
|||
|
|
- [ ] 回归审核接口。
|
|||
|
|
- [ ] 回归上线拦截。
|
|||
|
|
- [ ] 回归语义解析接口。
|
|||
|
|
- [ ] 回归 Orchestrator 路由。
|
|||
|
|
- [ ] 回归 User Agent 问答。
|
|||
|
|
- [ ] 回归 Hermes 任务执行。
|
|||
|
|
- [ ] 回归 AgentRun Trace。
|
|||
|
|
- [ ] 回归 ToolCall 日志。
|
|||
|
|
- [ ] 回归 AuditLog 日志。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 从前端能完成至少一条端到端演示路径。
|
|||
|
|
|
|||
|
|
## 2. 权限和风险边界
|
|||
|
|
|
|||
|
|
- [ ] 未审核规则不能上线。
|
|||
|
|
- [ ] rejected 规则不能上线。
|
|||
|
|
- [ ] disabled 能力不能被调用。
|
|||
|
|
- [ ] 用户请求付款必须拦截。
|
|||
|
|
- [ ] 用户请求审批必须需要确认。
|
|||
|
|
- [ ] Hermes 生成规则只能是 draft。
|
|||
|
|
- [ ] Hermes 生成知识只能是 draft。
|
|||
|
|
- [ ] User Agent 生成处理意见只能是草稿。
|
|||
|
|
- [ ] 所有高风险动作响应中包含 `requires_confirmation`。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 不存在 MVP 期间绕过人工审核的路径。
|
|||
|
|
|
|||
|
|
## 3. 审计和 Trace 补齐
|
|||
|
|
|
|||
|
|
- [ ] 规则保存写 AuditLog。
|
|||
|
|
- [ ] 规则审核写 AuditLog。
|
|||
|
|
- [ ] 规则上线写 AuditLog。
|
|||
|
|
- [ ] Hermes 生成规则草稿写 AuditLog。
|
|||
|
|
- [ ] Hermes 生成知识候选写 AuditLog。
|
|||
|
|
- [ ] User Agent 草稿生成写 AuditLog。
|
|||
|
|
- [ ] Orchestrator 每次运行有 AgentRun。
|
|||
|
|
- [ ] 每次工具调用有 ToolCall。
|
|||
|
|
- [ ] Trace 页面或接口能串起 run_id。
|
|||
|
|
- [ ] 错误 Trace 包含 error_message。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 任意一条演示链路都能追溯到 run_id。
|
|||
|
|
|
|||
|
|
## 4. 前端体验修补
|
|||
|
|
|
|||
|
|
- [ ] 任务规则中心列表无明显错位。
|
|||
|
|
- [ ] 详情页无双 title。
|
|||
|
|
- [ ] Hero title 高度紧凑。
|
|||
|
|
- [ ] 返回列表栏高度正常。
|
|||
|
|
- [ ] Markdown 编辑器和版本卡片底部对齐。
|
|||
|
|
- [ ] 版本卡片不贴右侧。
|
|||
|
|
- [ ] 当前版本标识不突兀。
|
|||
|
|
- [ ] 日期列对齐。
|
|||
|
|
- [ ] 弹窗文案清楚。
|
|||
|
|
- [ ] 加载态可见。
|
|||
|
|
- [ ] 错误态可见。
|
|||
|
|
- [ ] 空态可见。
|
|||
|
|
- [ ] 按钮禁用态可见。
|
|||
|
|
- [ ] 窄屏不出现内容重叠。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 任务规则中心可以给业务用户演示,不需要解释 UI 异常。
|
|||
|
|
|
|||
|
|
## 5. 测试补齐
|
|||
|
|
|
|||
|
|
- [ ] 运行后端现有测试。
|
|||
|
|
- [ ] 运行新增模型测试。
|
|||
|
|
- [ ] 运行新增 API 测试。
|
|||
|
|
- [ ] 运行语义解析测试。
|
|||
|
|
- [ ] 运行 Orchestrator 测试。
|
|||
|
|
- [ ] 运行 User Agent 测试。
|
|||
|
|
- [ ] 运行 Hermes 测试。
|
|||
|
|
- [ ] 运行前端构建。
|
|||
|
|
- [ ] 如果有前端测试,运行前端测试。
|
|||
|
|
- [ ] 记录未能运行的测试和原因。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 测试结果写入本文件“测试记录”。
|
|||
|
|
|
|||
|
|
## 6. 评测集
|
|||
|
|
|
|||
|
|
- [ ] 准备 5 条报销问题。
|
|||
|
|
- [ ] 准备 5 条应收问题。
|
|||
|
|
- [ ] 准备 5 条应付问题。
|
|||
|
|
- [ ] 准备 3 条规则解释问题。
|
|||
|
|
- [ ] 准备 3 条越权动作问题。
|
|||
|
|
- [ ] 执行语义解析评测。
|
|||
|
|
- [ ] 执行 User Agent 回答评测。
|
|||
|
|
- [ ] 执行权限拦截评测。
|
|||
|
|
- [ ] 记录失败样例。
|
|||
|
|
- [ ] 为失败样例写下一阶段优化建议。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 可以说明 MVP 当前能力边界和准确率风险。
|
|||
|
|
|
|||
|
|
## 7. 演示数据
|
|||
|
|
|
|||
|
|
- [ ] 准备 active 规则。
|
|||
|
|
- [ ] 准备 pending 规则。
|
|||
|
|
- [ ] 准备 rejected 规则。
|
|||
|
|
- [ ] 准备至少一条报销数据。
|
|||
|
|
- [ ] 准备至少一条应收数据。
|
|||
|
|
- [ ] 准备至少一条应付数据。
|
|||
|
|
- [ ] 准备至少一个 Hermes 任务。
|
|||
|
|
- [ ] 准备至少一个 MCP Mock。
|
|||
|
|
- [ ] 准备至少一个知识条目。
|
|||
|
|
- [ ] 准备至少一个风险样例。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 演示不会因为没有数据而中断。
|
|||
|
|
|
|||
|
|
## 8. 演示脚本
|
|||
|
|
|
|||
|
|
- [ ] 编写演示步骤 1:打开任务规则中心。
|
|||
|
|
- [ ] 编写演示步骤 2:查看规则详情。
|
|||
|
|
- [ ] 编写演示步骤 3:编辑 Markdown 并保存。
|
|||
|
|
- [ ] 编写演示步骤 4:切换版本。
|
|||
|
|
- [ ] 编写演示步骤 5:尝试上线未审核规则并被拦截。
|
|||
|
|
- [ ] 编写演示步骤 6:输入用户问题。
|
|||
|
|
- [ ] 编写演示步骤 7:查看语义本体结果。
|
|||
|
|
- [ ] 编写演示步骤 8:查看 User Agent 回答。
|
|||
|
|
- [ ] 编写演示步骤 9:手动触发 Hermes 任务。
|
|||
|
|
- [ ] 编写演示步骤 10:查看 AgentRun Trace。
|
|||
|
|
- [ ] 编写演示步骤 11:查看审计日志。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 新开发者按脚本可以复现演示。
|
|||
|
|
|
|||
|
|
## 9. 文档收尾
|
|||
|
|
|
|||
|
|
- [ ] 更新一周计划完成情况。
|
|||
|
|
- [ ] 更新剩余风险。
|
|||
|
|
- [ ] 更新下一阶段开发建议。
|
|||
|
|
- [ ] 更新接口清单。
|
|||
|
|
- [ ] 更新数据模型清单。
|
|||
|
|
- [ ] 更新前端页面清单。
|
|||
|
|
- [ ] 更新评测结果。
|
|||
|
|
- [ ] 更新演示脚本。
|
|||
|
|
- [ ] 更新部署或启动说明。
|
|||
|
|
|
|||
|
|
验收证据:
|
|||
|
|
|
|||
|
|
- [ ] 文档能指导下一周继续开发。
|
|||
|
|
|
|||
|
|
## 10. 最终验收清单
|
|||
|
|
|
|||
|
|
- [ ] 任务规则中心可查看规则、技能、MCP、任务。
|
|||
|
|
- [ ] 规则详情可编辑 Markdown。
|
|||
|
|
- [ ] 规则详情可查看最近 5 个版本。
|
|||
|
|
- [ ] 版本切换有确认弹窗。
|
|||
|
|
- [ ] 审核者信息可见。
|
|||
|
|
- [ ] 未审核规则不能上线。
|
|||
|
|
- [ ] 语义本体 8 字段可返回。
|
|||
|
|
- [ ] Orchestrator 能路由用户请求。
|
|||
|
|
- [ ] Orchestrator 能路由定时任务。
|
|||
|
|
- [ ] User Agent 能回答至少 3 类财务问题。
|
|||
|
|
- [ ] Hermes 能执行至少 1 个任务。
|
|||
|
|
- [ ] OCR Mock 接入点可用。
|
|||
|
|
- [ ] 知识候选可生成。
|
|||
|
|
- [ ] 规则草稿可生成。
|
|||
|
|
- [ ] AgentRun Trace 可查。
|
|||
|
|
- [ ] AuditLog 可查。
|
|||
|
|
- [ ] 前端构建通过。
|
|||
|
|
- [ ] 后端核心测试通过。
|
|||
|
|
- [ ] 演示脚本可执行。
|
|||
|
|
- [ ] 所有完成项已用 `[x] ~~...~~` 标记。
|
|||
|
|
|
|||
|
|
## 测试记录
|
|||
|
|
|
|||
|
|
- [ ] 后端测试:未运行。
|
|||
|
|
- [ ] 前端构建:未运行。
|
|||
|
|
- [ ] 语义评测:未运行。
|
|||
|
|
- [ ] 手动验收:未运行。
|
|||
|
|
|
|||
|
|
## 阻塞记录
|
|||
|
|
|
|||
|
|
- [ ] 暂无。
|
|||
|
|
|
|||
|
|
## 日终交接
|
|||
|
|
|
|||
|
|
- [ ] 写明本周最终完成内容。
|
|||
|
|
- [ ] 写明未完成内容。
|
|||
|
|
- [ ] 写明生产化前必须补齐内容。
|
|||
|
|
- [ ] 写明下一周建议优先级。
|