docs(agent-plan): update architecture docs and remove weekly_execution_details

- Update 00_README.md: refresh architecture overview
- Update 02_semantic_ontology.md: expand semantic layer design
- Update 04_orchestrator_and_runtime_flow.md: add runtime flow details
- Update 05_development_roadmap.md: refine milestone timeline
- Update 06_data_contracts_and_governance.md: add contract specifications
- Update 10_evaluation_and_testset.md: add evaluation framework
- Update 11_ocr_invoice_architecture.md: enhance OCR architecture
- Update 14_financial_document_canonical_model.md: complete model design
- Remove weekly_execution_details/: deprecated in favor of agent week plan
This commit is contained in:
caoxiaozhu
2026-05-12 01:20:53 +00:00
parent 0b63be2d39
commit 9b88ee2901
17 changed files with 1071 additions and 1871 deletions

View File

@@ -259,6 +259,102 @@ escalate_to_human
}
```
## 4. 混合语义解析架构
第一版可上线实现不应只依赖关键词和正则。
推荐采用:
```text
输入上下文装配
用户文本 + 页面上下文 + 附件名称 + OCR/VLM 摘要
预抽取
时间、金额、单号、显式对象
LLM 结构化解析
输出 scenario / intent / entities / missing_slots / ambiguity
Schema 校验
JSON 解析、字段枚举、必填校验、类型归一化
规则兜底
模型失败、低置信度或字段缺失时回退到规则解析
澄清追问
低置信度、歧义、缺槽位时不允许直接查库
```
设计原则:
- 模型优先负责“理解意图和场景”。
- 规则优先负责“校验、补全和兜底”。
- 附件名称、OCR、VLM 结果只能作为证据,不等于已确认事实。
- 所有语义输出都必须标记置信度和来源。
## 5. 推荐新增字段
为支持模型优先解析,建议在扩展字段中至少增加:
```json
{
"missing_slots": [],
"ambiguity": [],
"field_confidence": {},
"field_source": {},
"attachment_context": [],
"parse_strategy": "llm_primary_with_rule_fallback"
}
```
字段说明:
- `missing_slots`:还缺哪些关键字段,例如费用类型、单据号、客户单位。
- `ambiguity`:当前可能混淆的理解结果。
- `field_confidence`:字段级置信度,而不是只给整体分数。
- `field_source`:字段来自 `llm``rule``ocr``vlm` 还是 `user_context`
- `attachment_context`:本次可供语义解析使用的附件摘要。
- `parse_strategy`:标记本次是模型主解析还是规则回退。
## 6. 叙述型财务输入
语义层必须支持“不是查询句”的自然叙述。
典型样例:
```text
我今天去客户现场招待了客户花销了1000元
我垫付了打车费和餐费,帮我看看怎么报
上传了三张票,帮我整理成报销草稿
```
这类输入不能默认识别成 `query`
建议默认策略:
- 优先识别为 `reimbursement` 域。
- 场景优先落到 `daily_expense``travel_reimbursement``attachment_review`
- 意图优先落到 `create``generate``validate`
- 缺失关键字段时返回 `ask_clarification`,而不是直接查数据库。
## 7. 模糊短句与澄清规则
以下输入应优先追问:
```text
我要报销
这个为什么还没处理
帮我看一下这个
上传好了,下一步呢
```
处理原则:
- 不允许直接执行工具。
- 不允许直接落到应收、应付查询。
- 必须生成澄清问题。
- 必须在审计中记录触发追问的原因。
扩展原则:
- 先不要把所有字段都做成数据库列。
@@ -359,4 +455,3 @@ escalate_to_human
"next_step": "run_rule"
}
```