- Update 00_README.md: refresh week plan overview and structure - Update MASTER_TODO.md: update master todo list for new week - Update day_1_foundation_models.md: expand foundation models tasks - Update day_2_rule_center_integration.md: add rule center integration tasks - Update day_3_semantic_ontology_mvp.md: add semantic ontology tasks - Update day_4_orchestrator_runtime.md: add orchestrator runtime tasks - Update day_5_user_agent_mvp.md: add user agent tasks - Update day_6_hermes_mvp.md: add hermes agent tasks - Update day_7_hardening_demo_acceptance.md: add hardening tasks
7.4 KiB
7.4 KiB
Day 7:加固、演示和验收
今天的大开发点
不再大规模扩功能,集中做回归、加固、测试、演示脚本、文档收尾和下一阶段交接。
为什么第七天做这个
一周开发不能只停留在“代码写了”。必须能演示、能追溯、能说清楚边界、能交给下一阶段继续开发。
今天主要交付
- 核心链路回归。
- 权限和风险边界复查。
- 审计日志补齐。
- AgentRun Trace 补齐。
- 前端体验修补。
- 测试和构建记录。
- 评测集执行记录。
- 演示数据准备。
- 演示脚本。
- 下一阶段开发建议。
相关架构文档:
当天验收门槛
- 任务规则中心核心路径可演示。
- 语义本体、Orchestrator、User Agent、Hermes 都能跑通最小链路。
- 未审核规则、高风险动作、自动付款等边界都被拦截。
- AgentRun、ToolCall、AuditLog 可追溯。
- 有测试记录、演示脚本和交接说明。
今天不做
- 不做新大功能。
- 不临时扩大范围。
- 不绕过测试和验收。
详细执行清单
以下内容为合并后的详细执行清单。
0. 开始前检查
- 汇总 Day 1 未完成项。
- 汇总 Day 2 未完成项。
- 汇总 Day 3 未完成项。
- 汇总 Day 4 未完成项。
- 汇总 Day 5 未完成项。
- 汇总 Day 6 未完成项。
- 标记必须今天修复的问题。
- 标记可以进入下一阶段的问题。
- 冻结新增需求,只处理验收相关问题。
1. 核心链路回归
- 回归资产列表接口。
- 回归规则详情接口。
- 回归 Markdown 保存。
- 回归版本列表。
- 回归版本切换。
- 回归审核接口。
- 回归上线拦截。
- 回归语义解析接口。
- 回归 Orchestrator 路由。
- 回归 User Agent 问答。
- 回归 Hermes 任务执行。
- 回归 AgentRun Trace。
- 回归 ToolCall 日志。
- 回归 AuditLog 日志。
验收证据:
- 从前端能完成至少一条端到端演示路径。
2. 权限和风险边界
- 未审核规则不能上线。
- rejected 规则不能上线。
- disabled 能力不能被调用。
- 用户请求付款必须拦截。
- 用户请求审批必须需要确认。
- Hermes 生成规则只能是 draft。
- Hermes 生成知识只能是 draft。
- User Agent 生成处理意见只能是草稿。
- 所有高风险动作响应中包含
requires_confirmation。
验收证据:
- 不存在 MVP 期间绕过人工审核的路径。
3. 审计和 Trace 补齐
- 规则保存写 AuditLog。
- 规则审核写 AuditLog。
- 规则上线写 AuditLog。
- Hermes 生成规则草稿写 AuditLog。
- Hermes 生成知识候选写 AuditLog。
- User Agent 草稿生成写 AuditLog。
- Orchestrator 每次运行有 AgentRun。
- 每次工具调用有 ToolCall。
- Trace 页面或接口能串起 run_id。
- 错误 Trace 包含 error_message。
验收证据:
- 任意一条演示链路都能追溯到 run_id。
4. 前端体验修补
- 任务规则中心列表无明显错位。
- 详情页无双 title。
- Hero title 高度紧凑。
- 返回列表栏高度正常。
- Markdown 编辑器和版本卡片底部对齐。
- 版本卡片不贴右侧。
- 当前版本标识不突兀。
- 日期列对齐。
- 弹窗文案清楚。
- 加载态可见。
- 错误态可见。
- 空态可见。
- 按钮禁用态可见。
- 窄屏不出现内容重叠。
验收证据:
- 任务规则中心可以给业务用户演示,不需要解释 UI 异常。
5. 测试补齐
- 运行后端现有测试。
- 运行新增模型测试。
- 运行新增 API 测试。
- 运行语义解析测试。
- 运行 Orchestrator 测试。
- 运行 User Agent 测试。
- 运行 Hermes 测试。
- 运行前端构建。
- 如果有前端测试,运行前端测试。
- 记录未能运行的测试和原因。
验收证据:
- 测试结果写入本文件“测试记录”。
6. 评测集
- 准备 5 条报销问题。
- 准备 5 条应收问题。
- 准备 5 条应付问题。
- 准备 3 条规则解释问题。
- 准备 3 条越权动作问题。
- 执行语义解析评测。
- 执行 User Agent 回答评测。
- 执行权限拦截评测。
- 记录失败样例。
- 为失败样例写下一阶段优化建议。
验收证据:
- 可以说明 MVP 当前能力边界和准确率风险。
7. 演示数据
- 准备 active 规则。
- 准备 pending 规则。
- 准备 rejected 规则。
- 准备至少一条报销数据。
- 准备至少一条应收数据。
- 准备至少一条应付数据。
- 准备至少一个 Hermes 任务。
- 准备至少一个 MCP Mock。
- 准备至少一个知识条目。
- 准备至少一个风险样例。
验收证据:
- 演示不会因为没有数据而中断。
8. 演示脚本
- 编写演示步骤 1:打开任务规则中心。
- 编写演示步骤 2:查看规则详情。
- 编写演示步骤 3:编辑 Markdown 并保存。
- 编写演示步骤 4:切换版本。
- 编写演示步骤 5:尝试上线未审核规则并被拦截。
- 编写演示步骤 6:输入用户问题。
- 编写演示步骤 7:查看语义本体结果。
- 编写演示步骤 8:查看 User Agent 回答。
- 编写演示步骤 9:手动触发 Hermes 任务。
- 编写演示步骤 10:查看 AgentRun Trace。
- 编写演示步骤 11:查看审计日志。
验收证据:
- 新开发者按脚本可以复现演示。
9. 文档收尾
- 更新一周计划完成情况。
- 更新剩余风险。
- 更新下一阶段开发建议。
- 更新接口清单。
- 更新数据模型清单。
- 更新前端页面清单。
- 更新评测结果。
- 更新演示脚本。
- 更新部署或启动说明。
验收证据:
- 文档能指导下一周继续开发。
10. 最终验收清单
- 任务规则中心可查看规则、技能、MCP、任务。
- 规则详情可编辑 Markdown。
- 规则详情可查看最近 5 个版本。
- 版本切换有确认弹窗。
- 审核者信息可见。
- 未审核规则不能上线。
- 语义本体 8 字段可返回。
- Orchestrator 能路由用户请求。
- Orchestrator 能路由定时任务。
- User Agent 能回答至少 3 类财务问题。
- Hermes 能执行至少 1 个任务。
- OCR Mock 接入点可用。
- 知识候选可生成。
- 规则草稿可生成。
- AgentRun Trace 可查。
- AuditLog 可查。
- 前端构建通过。
- 后端核心测试通过。
- 演示脚本可执行。
- 所有完成项已用
[x] ~~...~~标记。
测试记录
- 后端测试:未运行。
- 前端构建:未运行。
- 语义评测:未运行。
- 手动验收:未运行。
阻塞记录
- 暂无。
日终交接
- 写明本周最终完成内容。
- 写明未完成内容。
- 写明生产化前必须补齐内容。
- 写明下一周建议优先级。