docs(agent-plan): update architecture docs and remove weekly_execution_details

- Update 00_README.md: refresh architecture overview - Update 02_semantic_ontology.md: expand semantic layer design - Update 04_orchestrator_and_runtime_flow.md: add runtime flow details - Update 05_development_roadmap.md: refine milestone timeline - Update 06_data_contracts_and_governance.md: add contract specifications - Update 10_evaluation_and_testset.md: add evaluation framework - Update 11_ocr_invoice_architecture.md: enhance OCR architecture - Update 14_financial_document_canonical_model.md: complete model design - Remove weekly_execution_details/: deprecated in favor of agent week plan
2026-05-12 01:20:53 +00:00
parent 0b63be2d39
commit 9b88ee2901
17 changed files with 1071 additions and 1871 deletions
--- a/plan/02_semantic_ontology.md
+++ b/plan/02_semantic_ontology.md
@@ -259,6 +259,102 @@ escalate_to_human
 }
 ```

+## 4. 混合语义解析架构
+
+第一版可上线实现不应只依赖关键词和正则。
+
+推荐采用：
+
+```text
+输入上下文装配
+  用户文本 + 页面上下文 + 附件名称 + OCR/VLM 摘要
+  ↓
+预抽取
+  时间、金额、单号、显式对象
+  ↓
+LLM 结构化解析
+  输出 scenario / intent / entities / missing_slots / ambiguity
+  ↓
+Schema 校验
+  JSON 解析、字段枚举、必填校验、类型归一化
+  ↓
+规则兜底
+  模型失败、低置信度或字段缺失时回退到规则解析
+  ↓
+澄清追问
+  低置信度、歧义、缺槽位时不允许直接查库
+```
+
+设计原则：
+
+- 模型优先负责“理解意图和场景”。
+- 规则优先负责“校验、补全和兜底”。
+- 附件名称、OCR、VLM 结果只能作为证据，不等于已确认事实。
+- 所有语义输出都必须标记置信度和来源。
+
+## 5. 推荐新增字段
+
+为支持模型优先解析，建议在扩展字段中至少增加：
+
+```json
+{
+  "missing_slots": [],
+  "ambiguity": [],
+  "field_confidence": {},
+  "field_source": {},
+  "attachment_context": [],
+  "parse_strategy": "llm_primary_with_rule_fallback"
+}
+```
+
+字段说明：
+
+- `missing_slots`：还缺哪些关键字段，例如费用类型、单据号、客户单位。
+- `ambiguity`：当前可能混淆的理解结果。
+- `field_confidence`：字段级置信度，而不是只给整体分数。
+- `field_source`：字段来自 `llm`、`rule`、`ocr`、`vlm` 还是 `user_context`。
+- `attachment_context`：本次可供语义解析使用的附件摘要。
+- `parse_strategy`：标记本次是模型主解析还是规则回退。
+
+## 6. 叙述型财务输入
+
+语义层必须支持“不是查询句”的自然叙述。
+
+典型样例：
+
+```text
+我今天去客户现场，招待了客户，花销了1000元
+我垫付了打车费和餐费，帮我看看怎么报
+上传了三张票，帮我整理成报销草稿
+```
+
+这类输入不能默认识别成 `query`。
+
+建议默认策略：
+
+- 优先识别为 `reimbursement` 域。
+- 场景优先落到 `daily_expense`、`travel_reimbursement` 或 `attachment_review`。
+- 意图优先落到 `create`、`generate` 或 `validate`。
+- 缺失关键字段时返回 `ask_clarification`，而不是直接查数据库。
+
+## 7. 模糊短句与澄清规则
+
+以下输入应优先追问：
+
+```text
+我要报销
+这个为什么还没处理
+帮我看一下这个
+上传好了，下一步呢
+```
+
+处理原则：
+
+- 不允许直接执行工具。
+- 不允许直接落到应收、应付查询。
+- 必须生成澄清问题。
+- 必须在审计中记录触发追问的原因。
+
 扩展原则：

 - 先不要把所有字段都做成数据库列。
@@ -359,4 +455,3 @@ escalate_to_human
  "next_step": "run_rule"
 }
 ```
-