docs(agent-week-plan): update weekly execution plan documents

- Update 00_README.md: refresh week plan overview and structure - Update MASTER_TODO.md: update master todo list for new week - Update day_1_foundation_models.md: expand foundation models tasks - Update day_2_rule_center_integration.md: add rule center integration tasks - Update day_3_semantic_ontology_mvp.md: add semantic ontology tasks - Update day_4_orchestrator_runtime.md: add orchestrator runtime tasks - Update day_5_user_agent_mvp.md: add user agent tasks - Update day_6_hermes_mvp.md: add hermes agent tasks - Update day_7_hardening_demo_acceptance.md: add hardening tasks
2026-05-12 01:22:33 +00:00
parent 9b88ee2901
commit ba28627f11
9 changed files with 1530 additions and 49 deletions
--- a/plan/day_3_semantic_ontology_mvp.md
+++ b/plan/day_3_semantic_ontology_mvp.md
@@ -2,9 +2,9 @@

 ## 今天的大开发点

-建立用户问题的语义解析层，把自然语言问题转换成统一的 8 个核心字段。
+建立模型优先的语义解析层，把自然语言问题转换成统一的 8 个核心字段。

-这一天的目标不是做到 LLM 全能理解，而是先让报销、应收、应付、知识和风险相关问题能进入稳定结构。
+这一天的目标不是继续堆关键词，而是先把真实模型接入语义层，让报销、应收、应付、知识和风险相关问题进入稳定结构，再由规则做兜底和校验。

 ## 为什么第三天做这个

@@ -19,12 +19,19 @@ Orchestrator 不能直接根据原始文本做可靠路由。它需要先拿到
 - 时间范围解析。
 - 指标和约束解析。
 - 风险信号和权限级别判断。
+- LLM 结构化解析 Prompt。
+- Schema 校验与 JSON 清洗。
+- 规则回退解析。
+- 低置信度追问和缺槽位追问。
 - 语义解析 API。
 - 解析日志和最小评测集。

-## 对应执行细则
+## 当前完成情况

- [Day 3 执行细则](<../agent plan/weekly_execution_details/day_3_semantic_ontology_mvp.md>)
+- [x] ~~`/api/v1/ontology/parse` 已上线，8 字段语义结构、缺槽位、歧义、权限和澄清问题均可返回。~~
+- [x] ~~语义层已切到“模型优先 + 规则回退”，并把结果写入 `AgentRun` / `SemanticParseLog`。~~
+- [x] ~~前端调试入口与核心评测测试已完成并通过。~~
+- [ ] 叙述型报销样本和模糊短句追问样本仍需继续扩充。

 相关架构文档：

@@ -35,13 +42,256 @@ Orchestrator 不能直接根据原始文本做可靠路由。它需要先拿到
 ## 当天验收门槛

 - 输入自然语言问题能返回 8 个字段。
+- 模型解析失败时能自动回退到规则解析。
 - 低置信度问题能返回澄清问题。
 - 越权动作不会被标记为可直接执行。
 - 解析结果能写入日志。
 - 至少覆盖报销、应收、应付三个场景。
+- 叙述型报销输入不会被错误路由到应收或应付。

 ## 今天不做

 - 不做复杂多轮对话记忆。
- 不做完整 LLM 提示词优化。
+- 不做完整 Agent 自主规划。
 - 不做自动执行业务流程。
+
+## 详细执行清单
+
+以下内容为合并后的详细执行清单。
+
+## 0. 开始前检查
+
+- [x] ~~确认 Day 1 的 `SemanticParseLog` 可用。~~
+- [x] ~~确认 Day 1 的 `AgentRun` 可用。~~
+- [x] ~~确认 Day 2 的资产 API 可用。~~
+- [x] ~~找到后端服务层目录。~~
+- [x] ~~找到现有 LLM 调用或 Mock 调用方式。~~
+- [x] ~~确认当前是否允许真实调用 LLM。~~
+- [x] ~~确认当前运行时模型槽位可用于语义解析。~~
+- [x] ~~如果真实模型不可用，已准备规则解析回退路径。~~
+
+## 1. 定义 8 个核心字段
+
+- [x] ~~定义字段 `scenario`，表示业务场景。~~
+- [x] ~~定义字段 `intent`，表示用户意图。~~
+- [x] ~~定义字段 `entities`，表示业务对象。~~
+- [x] ~~定义字段 `time_range`，表示时间范围。~~
+- [x] ~~定义字段 `metrics`，表示指标或金额口径。~~
+- [x] ~~定义字段 `constraints`，表示过滤条件。~~
+- [x] ~~定义字段 `risk_flags`，表示风险信号。~~
+- [x] ~~定义字段 `permission`，表示动作权限。~~
+- [x] ~~为每个字段写清楚类型。~~
+- [x] ~~为每个字段写清楚是否必填。~~
+- [x] ~~为每个字段写清楚默认值。~~
+- [x] ~~为每个字段写清楚示例。~~
+
+验收证据：
+
+- [x] ~~8 个字段在 Schema、服务层、日志中名字一致。~~
+
+## 2. 设计字段枚举
+
+- [x] ~~`scenario` 支持 `expense`。~~
+- [x] ~~`scenario` 支持 `accounts_receivable`。~~
+- [x] ~~`scenario` 支持 `accounts_payable`。~~
+- [x] ~~`scenario` 支持 `knowledge`。~~
+- [x] ~~`scenario` 支持 `unknown`。~~
+- [x] ~~`intent` 支持 `query`。~~
+- [x] ~~`intent` 支持 `explain`。~~
+- [x] ~~`intent` 支持 `compare`。~~
+- [x] ~~`intent` 支持 `risk_check`。~~
+- [x] ~~`intent` 支持 `draft`。~~
+- [x] ~~`intent` 支持 `operate`。~~
+- [x] ~~`permission.level` 支持 `read`。~~
+- [x] ~~`permission.level` 支持 `draft_write`。~~
+- [x] ~~`permission.level` 支持 `approval_required`。~~
+- [x] ~~`permission.level` 支持 `forbidden`。~~
+
+验收证据：
+
+- [x] ~~未识别的问题不会抛异常，返回 `unknown`。~~
+
+## 3. 建立 Schema
+
+- [x] ~~定义 `OntologyParseRequest`。~~
+- [x] ~~`OntologyParseRequest` 包含 `query`。~~
+- [x] ~~`OntologyParseRequest` 包含 `user_id`。~~
+- [x] ~~`OntologyParseRequest` 包含 `context_json`。~~
+- [x] ~~定义 `OntologyParseResult`。~~
+- [x] ~~`OntologyParseResult` 包含 8 个核心字段。~~
+- [x] ~~`OntologyParseResult` 包含 `confidence`。~~
+- [x] ~~`OntologyParseResult` 包含 `clarification_required`。~~
+- [x] ~~`OntologyParseResult` 包含 `clarification_question`。~~
+- [x] ~~`OntologyParseResult` 包含 `run_id`。~~
+- [x] ~~定义字段级错误结构。~~
+
+验收证据：
+
+- [x] ~~OpenAPI 中可以看到语义解析请求和响应。~~
+
+## 4. 实现解析服务
+
+- [x] ~~新增 `SemanticOntologyService` 或同等服务。~~
+- [x] ~~实现 `parse(query, user_context)` 主函数。~~
+- [x] ~~增加上下文装配层，输入文本、页面上下文、附件摘要和预抽取字段。~~
+- [x] ~~实现模型优先的结构化语义解析。~~
+- [x] ~~约束模型只输出 JSON。~~
+- [x] ~~对模型输出做清洗、提取和 Schema 校验。~~
+- [x] ~~模型失败时自动回退到规则解析。~~
+- [x] ~~在结果中记录本次使用了 `llm_primary` 还是 `rule_fallback`。~~
+- [x] ~~报销关键词映射到 `expense`。~~
+- [x] ~~应收、回款、客户欠款映射到 `accounts_receivable`。~~
+- [x] ~~应付、供应商、付款映射到 `accounts_payable`。~~
+- [x] ~~风险、异常、重复、超标映射到 `risk_check`。~~
+- [x] ~~为什么、依据、规则映射到 `explain`。~~
+- [x] ~~统计、汇总、多少映射到 `query`。~~
+- [x] ~~生成、创建、发起映射到 `draft` 或 `operate`。~~
+- [x] ~~无法识别时返回低置信度和澄清问题。~~
+- [x] ~~叙述型报销输入优先识别为创建/草稿，而不是查询。~~
+
+验收证据：
+
+- [x] ~~“查一下本周报销超标风险”能识别为 expense + risk_check。~~
+- [x] ~~“客户 A 这个月还有多少应收”能识别为 accounts_receivable + query。~~
+- [x] ~~“供应商 B 明天要付多少钱”能识别为 accounts_payable + query。~~
+- [x] ~~“我今天去客户现场，招待了客户，花销了1000元”不会错误识别为应收查询。~~
+
+## 5. 解析业务对象
+
+- [x] ~~从问题中提取员工姓名。~~
+- [x] ~~从问题中提取部门。~~
+- [x] ~~从问题中提取客户。~~
+- [x] ~~从问题中提取供应商。~~
+- [x] ~~从问题中提取项目。~~
+- [x] ~~从问题中提取单据号。~~
+- [x] ~~从问题中提取金额。~~
+- [x] ~~从问题中提取费用类型。~~
+- [x] ~~无法提取时返回空数组，不返回 null。~~
+
+验收证据：
+
+- [x] ~~“张三 4 月差旅报销”能提取员工、月份、费用类型。~~
+
+## 6. 解析时间范围
+
+- [x] ~~支持今天。~~
+- [x] ~~支持昨天。~~
+- [x] ~~支持本周。~~
+- [x] ~~支持上周。~~
+- [x] ~~支持本月。~~
+- [x] ~~支持上月。~~
+- [x] ~~支持本季度。~~
+- [x] ~~支持今年。~~
+- [x] ~~支持明确日期。~~
+- [x] ~~支持日期区间。~~
+- [x] ~~解析结果包含 `start_date` 和 `end_date`。~~
+- [x] ~~日期使用 ISO 格式。~~
+
+验收证据：
+
+- [x] ~~“本周”能解析为当前周起止日期。~~
+- [x] ~~“2026 年 4 月”能解析为 `2026-04-01` 到 `2026-04-30`。~~
+
+## 7. 解析指标与约束
+
+- [x] ~~识别金额指标。~~
+- [x] ~~识别数量指标。~~
+- [x] ~~识别超标指标。~~
+- [x] ~~识别逾期指标。~~
+- [x] ~~识别重复报销指标。~~
+- [x] ~~识别部门过滤条件。~~
+- [x] ~~识别状态过滤条件。~~
+- [x] ~~识别金额阈值过滤条件。~~
+- [x] ~~识别排序要求。~~
+- [x] ~~识别 Top N 要求。~~
+
+验收证据：
+
+- [x] ~~“列出金额最高的 10 笔报销”能识别排序和 Top 10。~~
+
+## 8. 解析风险与权限
+
+- [x] ~~重复报销映射到 `duplicate_expense`。~~
+- [x] ~~发票异常映射到 `invoice_anomaly`。~~
+- [x] ~~金额超标映射到 `amount_over_limit`。~~
+- [x] ~~逾期应收映射到 `ar_overdue`。~~
+- [x] ~~逾期应付映射到 `ap_overdue`。~~
+- [x] ~~查询类问题权限为 `read`。~~
+- [x] ~~生成草稿权限为 `draft_write`。~~
+- [x] ~~审批、上线、付款类动作权限为 `approval_required`。~~
+- [x] ~~越权动作权限为 `forbidden`。~~
+
+验收证据：
+
+- [x] ~~“帮我直接付款”不能被标为可直接执行。~~
+
+## 9. API 接口
+
+- [x] ~~新增 `POST /api/v1/ontology/parse`。~~
+- [x] ~~请求参数包含用户问题。~~
+- [x] ~~请求参数包含用户上下文。~~
+- [x] ~~响应包含 8 个字段。~~
+- [x] ~~响应包含 `run_id`。~~
+- [x] ~~响应包含置信度。~~
+- [x] ~~响应包含澄清问题。~~
+- [x] ~~每次调用写入 `SemanticParseLog`。~~
+- [x] ~~每次调用写入 `AgentRun` 或关联已有 `AgentRun`。~~
+
+验收证据：
+
+- [x] ~~连续调用多次都能在日志中查到。~~
+
+## 10. 前端调试入口
+
+- [x] ~~在合适页面增加语义解析调试入口。~~
+- [x] ~~输入框支持自然语言问题。~~
+- [x] ~~点击解析后调用 API。~~
+- [x] ~~展示 8 个字段。~~
+- [x] ~~展示 JSON 原始结果。~~
+- [x] ~~展示置信度。~~
+- [x] ~~展示澄清问题。~~
+- [x] ~~展示 `run_id`。~~
+- [x] ~~错误时展示错误信息。~~
+
+验收证据：
+
+- [x] ~~产品和开发可以直接在页面验证解析结果。~~
+
+## 11. 评测集
+
+- [x] ~~创建至少 5 条报销问题。~~
+- [ ] 创建至少 5 条叙述型报销问题。
+- [x] ~~创建至少 5 条应收问题。~~
+- [x] ~~创建至少 5 条应付问题。~~
+- [x] ~~创建至少 3 条知识库问题。~~
+- [x] ~~创建至少 3 条越权操作问题。~~
+- [ ] 创建至少 3 条模糊短句追问问题。
+- [x] ~~为每条问题写期望 `scenario`。~~
+- [x] ~~为每条问题写期望 `intent`。~~
+- [x] ~~为每条问题写期望权限级别。~~
+- [x] ~~编写评测脚本或测试。~~
+
+验收证据：
+
+- [x] ~~当前评测样本集已通过，覆盖样本准确率达到当天设定阈值。~~
+
+## 12. Day 3 验收
+
+- [x] ~~语义解析 API 可用。~~
+- [x] ~~8 个核心字段完整返回。~~
+- [x] ~~解析日志可查询。~~
+- [x] ~~低置信度问题有澄清问题。~~
+- [x] ~~越权动作不会被标为可执行。~~
+- [x] ~~前端调试入口可用。~~
+- [x] ~~评测集可运行。~~
+- [x] ~~所有完成项已用 `[x] ~~...~~` 标记。~~
+
+## 阻塞记录
+
+- [x] ~~暂无。~~
+
+## 日终交接
+
+- [x] ~~已支持报销 / 应收 / 应付 / 知识 / 风险 / 草稿 / 越权动作等核心场景关键词、实体与权限解析。~~
+- [x] ~~当前仍需继续扩充的弱样本主要是叙述型报销长句和模糊短句追问。~~
+- [x] ~~Day 4 可直接复用 `scenario / intent / entities / time_range / metrics / constraints / risk_flags / permission / confidence / missing_slots / ambiguity / parse_strategy / clarification_required / clarification_question / run_id`。~~