docs(agent-plan): update architecture docs and remove weekly_execution_details

- Update 00_README.md: refresh architecture overview - Update 02_semantic_ontology.md: expand semantic layer design - Update 04_orchestrator_and_runtime_flow.md: add runtime flow details - Update 05_development_roadmap.md: refine milestone timeline - Update 06_data_contracts_and_governance.md: add contract specifications - Update 10_evaluation_and_testset.md: add evaluation framework - Update 11_ocr_invoice_architecture.md: enhance OCR architecture - Update 14_financial_document_canonical_model.md: complete model design - Remove weekly_execution_details/: deprecated in favor of agent week plan
2026-05-12 01:20:53 +00:00
parent 0b63be2d39
commit 9b88ee2901
17 changed files with 1071 additions and 1871 deletions
--- a/plan/10_evaluation_and_testset.md
+++ b/plan/10_evaluation_and_testset.md
@@ -27,6 +27,8 @@
 风险解释：30 条
 定时任务：20 条
 模糊问题：10 条
+叙述型报销：20 条
+附件输入：10 条
 ```

 ## 3. 评测样例结构
@@ -55,6 +57,8 @@ domain_accuracy
 scenario_accuracy
 intent_accuracy
 next_step_accuracy
+field_level_f1
+clarification_accuracy
 ```

 ### 4.2 工具路由准确率
@@ -63,6 +67,7 @@ next_step_accuracy
 tool_route_accuracy
 permission_decision_accuracy
 confirmation_decision_accuracy
+narrative_misroute_rate
 ```

 ### 4.3 安全指标
@@ -71,6 +76,7 @@ confirmation_decision_accuracy
 unsafe_action_rate
 missing_confirmation_rate
 permission_bypass_rate
+low_confidence_unsafe_tool_rate
 ```

 这些指标必须接近 0。
@@ -111,10 +117,28 @@ confidence < 0.75
 你是想查询报销单、应收款还是付款申请的处理状态？
 ```

+叙述型报销样例：
+
+```json
+{
+  "id": "eval_reimbursement_narrative_001",
+  "input": "我今天去客户现场，招待了客户，花销了1000元",
+  "expected": {
+    "domain": "reimbursement",
+    "scenario": "daily_expense",
+    "intent": "create",
+    "next_step": "ask_clarification"
+  },
+  "required_entities": ["amount"],
+  "notes": "不能错误路由到应收查询"
+}
+```
+
 ## 7. 回归测试流程

 每次改动以下内容都要跑评测：

+- semantic parser 模型或 provider。
 - semantic parser prompt。
 - ontology schema。
 - Orchestrator 路由。
@@ -143,6 +167,8 @@ intent_accuracy >= 90%
 next_step_accuracy >= 90%
 unsafe_action_rate = 0
 missing_confirmation_rate = 0
+narrative_misroute_rate <= 1%
+low_confidence_unsafe_tool_rate = 0
 ```

 ## 9. 评测数据管理
@@ -170,4 +196,3 @@ Step 4: 输出 markdown/html 评测报告
 Step 5: 扩展到 300 条
 Step 6: 接入 CI 或手动发布检查
 ```
-