# 风险图谱数据来源与壁垒资产清单

更新日期：2026-05-30

## 风险相关数据来源

1. 报销单主表：`ExpenseClaim`
   - 关键字段：`id`、`claim_no`、`employee_id`、`employee_name`、`department_id`、`department_name`、`expense_type`、`amount`、`currency`、`invoice_count`、`occurred_at`、`submitted_at`、`status`、`approval_stage`、`risk_flags_json`。
   - 用途：风险主体、金额基线、流程阶段、规则命中、图谱 claim 节点。

2. 报销明细：`ExpenseClaimItem`
   - 关键字段：`item_id`、`item_type`、`item_amount`、`item_location`、`item_date`、`invoice_id`。
   - 用途：多凭证一致性、时空一致性、票据关系、图谱 item / invoice 节点。

3. 风险规则命中：`risk_flags_json` 与规则中心结果
   - 来源：报销单已有风险标记、`RiskObservationService.upsert_platform_risk_flags()`。
   - 用途：`S_rule`、规则版本追溯、候选规则闭环。

4. 风险观察池：`RiskObservation`
   - 关键字段：主体、单据、风险类型、风险信号、分数、等级、证据、图谱节点、图谱边、制度引用、相似案例、本体 JSON、决策追踪。
   - 用途：统一风险结论、看板、详情、反馈、回放。

5. 风险观察反馈：`RiskObservationFeedback`
   - 关键字段：反馈类型、动作、处理人、备注、扩展 payload。
   - 用途：人工采纳、误报、忽略、处理完成、候选规则来源、回放标签。

6. 数字员工任务记录：`HermesTaskExecutionLog`
   - 关键字段：任务配置、状态、开始结束时间、错误信息、执行摘要。
   - 用途：风险扫描任务追溯、数字员工工作记录详情、失败原因。

7. Agent 运行记录：`AgentRun`
   - 关键字段：`run_id`、`agent`、`source`、`task_id`、`ontology_json`、`route_json`、权限、状态、摘要、错误、起止时间。
   - 用途：数字员工运行上下文、数据血缘、回放输入。

8. 工具调用记录：`AgentToolCall`
   - 关键字段：工具类型、工具名称、请求、响应、状态、耗时、错误。
   - 用途：OCR、知识检索、规则执行、外部工具证据链。

9. 语义解析日志：`SemanticParseLog`
   - 关键字段：原始查询、场景、意图、实体、时间范围、指标、约束、风险信号、权限、置信度。
   - 用途：本体到风险图谱桥接、低置信度降级、语义血缘。

10. 财务制度知识库
    - 来源：知识库文档、制度归集任务、知识检索证据。
    - 用途：制度条款引用、`S_policy`、风险解释、制度缺口识别。

## `/api/v1/ontology/parse` 字段与落库方式

接口请求：`OntologyParseRequest`

- `query`：自然语言问题。
- `user_id`：当前用户。
- `context_json`：角色、部门、权限上下文。

接口响应：`OntologyParseResult`

- `scenario`：业务场景。
- `intent`：用户意图。
- `entities`：实体列表，包含类型、原值、标准值、角色、置信度。
- `time_range`：时间范围。
- `metrics`：指标列表。
- `constraints`：字段约束。
- `risk_flags`：风险信号列表。
- `permission`：权限结果。
- `confidence`：整体置信度。
- `missing_slots`：缺失槽位。
- `ambiguity`：歧义说明。
- `parse_strategy`：解析策略。
- `clarification_required` / `clarification_question`：是否需要追问。
- `run_id`：关联 `AgentRun.run_id`。
- `field_errors`：字段级错误。

落库方式：

- `AgentRun.ontology_json` 保存本次解析概要。
- `SemanticParseLog.entities_json` 保存实体。
- `SemanticParseLog.time_range_json` 保存时间。
- `SemanticParseLog.metrics_json` 保存指标。
- `SemanticParseLog.constraints_json` 保存约束。
- `SemanticParseLog.risk_flags_json` 保存风险信号。
- `SemanticParseLog.permission_json` 保存权限。
- `SemanticParseLog.confidence` 保存整体置信度。

## 不可复制壁垒资产

1. 专有财务本体
   - 由场景、意图、实体、约束、风险信号、权限和置信度构成。
   - 价值：把自然语言、规则中心和风险图谱统一到同一业务语义。

2. 对象中心财务事件日志
   - 由 `ObjectCentricEvent` 承载，统一申请、报销、票据、审批、退回、付款、归档、复盘。
   - 价值：形成可回放过程挖掘资产。

3. 风险观察反馈池
   - 由 `RiskObservationFeedback` 承载，记录确认、误报、忽略、改写、补件、升级和候选规则来源。
   - 价值：把人工判断变成模型和规则迭代样本。

4. 人机共审行为数据
   - 来源：AgentRun、ToolCall、反馈、数字员工执行日志。
   - 价值：记录谁在何时基于什么证据做了什么判断。

5. 可回放评测资产
   - 由 `AlgorithmReplaySet` 与 `RiskEvaluationCase` 承载。
   - 价值：每次规则、本体或算法升级后都能复跑历史样本，防止误报率失控。

6. 实体标准化资产
   - 由 `FinancialEntityResolver` 和 `CanonicalEntityRegistry` 承载。
   - 价值：沉淀供应商、商户、酒店、银行户名、员工姓名等标准主体。

7. 可解释决策资产
   - 由 `DecisionTrace`、贡献项、不确定性原因、数据血缘承载。
   - 价值：让每个风险结论都能被审计、复核和反事实推演。