Files
X-Financial/document/development/agent week plan/day_7_hardening_demo_acceptance.md
caoxiaozhu ba28627f11 docs(agent-week-plan): update weekly execution plan documents
- Update 00_README.md: refresh week plan overview and structure
- Update MASTER_TODO.md: update master todo list for new week
- Update day_1_foundation_models.md: expand foundation models tasks
- Update day_2_rule_center_integration.md: add rule center integration tasks
- Update day_3_semantic_ontology_mvp.md: add semantic ontology tasks
- Update day_4_orchestrator_runtime.md: add orchestrator runtime tasks
- Update day_5_user_agent_mvp.md: add user agent tasks
- Update day_6_hermes_mvp.md: add hermes agent tasks
- Update day_7_hardening_demo_acceptance.md: add hardening tasks
2026-05-12 01:22:38 +00:00

7.4 KiB
Raw Blame History

Day 7加固、演示和验收

今天的大开发点

不再大规模扩功能,集中做回归、加固、测试、演示脚本、文档收尾和下一阶段交接。

为什么第七天做这个

一周开发不能只停留在“代码写了”。必须能演示、能追溯、能说清楚边界、能交给下一阶段继续开发。

今天主要交付

  • 核心链路回归。
  • 权限和风险边界复查。
  • 审计日志补齐。
  • AgentRun Trace 补齐。
  • 前端体验修补。
  • 测试和构建记录。
  • 评测集执行记录。
  • 演示数据准备。
  • 演示脚本。
  • 下一阶段开发建议。

相关架构文档:

当天验收门槛

  • 任务规则中心核心路径可演示。
  • 语义本体、Orchestrator、User Agent、Hermes 都能跑通最小链路。
  • 未审核规则、高风险动作、自动付款等边界都被拦截。
  • AgentRun、ToolCall、AuditLog 可追溯。
  • 有测试记录、演示脚本和交接说明。

今天不做

  • 不做新大功能。
  • 不临时扩大范围。
  • 不绕过测试和验收。

详细执行清单

以下内容为合并后的详细执行清单。

0. 开始前检查

  • 汇总 Day 1 未完成项。
  • 汇总 Day 2 未完成项。
  • 汇总 Day 3 未完成项。
  • 汇总 Day 4 未完成项。
  • 汇总 Day 5 未完成项。
  • 汇总 Day 6 未完成项。
  • 标记必须今天修复的问题。
  • 标记可以进入下一阶段的问题。
  • 冻结新增需求,只处理验收相关问题。

1. 核心链路回归

  • 回归资产列表接口。
  • 回归规则详情接口。
  • 回归 Markdown 保存。
  • 回归版本列表。
  • 回归版本切换。
  • 回归审核接口。
  • 回归上线拦截。
  • 回归语义解析接口。
  • 回归 Orchestrator 路由。
  • 回归 User Agent 问答。
  • 回归 Hermes 任务执行。
  • 回归 AgentRun Trace。
  • 回归 ToolCall 日志。
  • 回归 AuditLog 日志。

验收证据:

  • 从前端能完成至少一条端到端演示路径。

2. 权限和风险边界

  • 未审核规则不能上线。
  • rejected 规则不能上线。
  • disabled 能力不能被调用。
  • 用户请求付款必须拦截。
  • 用户请求审批必须需要确认。
  • Hermes 生成规则只能是 draft。
  • Hermes 生成知识只能是 draft。
  • User Agent 生成处理意见只能是草稿。
  • 所有高风险动作响应中包含 requires_confirmation

验收证据:

  • 不存在 MVP 期间绕过人工审核的路径。

3. 审计和 Trace 补齐

  • 规则保存写 AuditLog。
  • 规则审核写 AuditLog。
  • 规则上线写 AuditLog。
  • Hermes 生成规则草稿写 AuditLog。
  • Hermes 生成知识候选写 AuditLog。
  • User Agent 草稿生成写 AuditLog。
  • Orchestrator 每次运行有 AgentRun。
  • 每次工具调用有 ToolCall。
  • Trace 页面或接口能串起 run_id。
  • 错误 Trace 包含 error_message。

验收证据:

  • 任意一条演示链路都能追溯到 run_id。

4. 前端体验修补

  • 任务规则中心列表无明显错位。
  • 详情页无双 title。
  • Hero title 高度紧凑。
  • 返回列表栏高度正常。
  • Markdown 编辑器和版本卡片底部对齐。
  • 版本卡片不贴右侧。
  • 当前版本标识不突兀。
  • 日期列对齐。
  • 弹窗文案清楚。
  • 加载态可见。
  • 错误态可见。
  • 空态可见。
  • 按钮禁用态可见。
  • 窄屏不出现内容重叠。

验收证据:

  • 任务规则中心可以给业务用户演示,不需要解释 UI 异常。

5. 测试补齐

  • 运行后端现有测试。
  • 运行新增模型测试。
  • 运行新增 API 测试。
  • 运行语义解析测试。
  • 运行 Orchestrator 测试。
  • 运行 User Agent 测试。
  • 运行 Hermes 测试。
  • 运行前端构建。
  • 如果有前端测试,运行前端测试。
  • 记录未能运行的测试和原因。

验收证据:

  • 测试结果写入本文件“测试记录”。

6. 评测集

  • 准备 5 条报销问题。
  • 准备 5 条应收问题。
  • 准备 5 条应付问题。
  • 准备 3 条规则解释问题。
  • 准备 3 条越权动作问题。
  • 执行语义解析评测。
  • 执行 User Agent 回答评测。
  • 执行权限拦截评测。
  • 记录失败样例。
  • 为失败样例写下一阶段优化建议。

验收证据:

  • 可以说明 MVP 当前能力边界和准确率风险。

7. 演示数据

  • 准备 active 规则。
  • 准备 pending 规则。
  • 准备 rejected 规则。
  • 准备至少一条报销数据。
  • 准备至少一条应收数据。
  • 准备至少一条应付数据。
  • 准备至少一个 Hermes 任务。
  • 准备至少一个 MCP Mock。
  • 准备至少一个知识条目。
  • 准备至少一个风险样例。

验收证据:

  • 演示不会因为没有数据而中断。

8. 演示脚本

  • 编写演示步骤 1打开任务规则中心。
  • 编写演示步骤 2查看规则详情。
  • 编写演示步骤 3编辑 Markdown 并保存。
  • 编写演示步骤 4切换版本。
  • 编写演示步骤 5尝试上线未审核规则并被拦截。
  • 编写演示步骤 6输入用户问题。
  • 编写演示步骤 7查看语义本体结果。
  • 编写演示步骤 8查看 User Agent 回答。
  • 编写演示步骤 9手动触发 Hermes 任务。
  • 编写演示步骤 10查看 AgentRun Trace。
  • 编写演示步骤 11查看审计日志。

验收证据:

  • 新开发者按脚本可以复现演示。

9. 文档收尾

  • 更新一周计划完成情况。
  • 更新剩余风险。
  • 更新下一阶段开发建议。
  • 更新接口清单。
  • 更新数据模型清单。
  • 更新前端页面清单。
  • 更新评测结果。
  • 更新演示脚本。
  • 更新部署或启动说明。

验收证据:

  • 文档能指导下一周继续开发。

10. 最终验收清单

  • 任务规则中心可查看规则、技能、MCP、任务。
  • 规则详情可编辑 Markdown。
  • 规则详情可查看最近 5 个版本。
  • 版本切换有确认弹窗。
  • 审核者信息可见。
  • 未审核规则不能上线。
  • 语义本体 8 字段可返回。
  • Orchestrator 能路由用户请求。
  • Orchestrator 能路由定时任务。
  • User Agent 能回答至少 3 类财务问题。
  • Hermes 能执行至少 1 个任务。
  • OCR Mock 接入点可用。
  • 知识候选可生成。
  • 规则草稿可生成。
  • AgentRun Trace 可查。
  • AuditLog 可查。
  • 前端构建通过。
  • 后端核心测试通过。
  • 演示脚本可执行。
  • 所有完成项已用 [x] ~~...~~ 标记。

测试记录

  • 后端测试:未运行。
  • 前端构建:未运行。
  • 语义评测:未运行。
  • 手动验收:未运行。

阻塞记录

  • 暂无。

日终交接

  • 写明本周最终完成内容。
  • 写明未完成内容。
  • 写明生产化前必须补齐内容。
  • 写明下一周建议优先级。