X-Financial/document/development/agent plan/15_feedback_learning_loop.md

# 反馈闭环与持续学习

## 1. 定位

Agent 系统必须能从人工反馈中持续变好。

反馈来源：

- OCR 人工修正。
- 规则误报/漏报。
- 审批人修改意见。
- 用户对回答的反馈。
- Hermes 风险复盘。
- MCP 调用失败和降级。

## 2. 反馈类型

```text
ocr_correction
rule_false_positive
rule_false_negative
agent_answer_feedback
approval_opinion_edit
knowledge_answer_feedback
mcp_failure_feedback
task_result_feedback
```

## 3. 反馈结构

```json
{
  "feedback_id": "",
  "feedback_type": "rule_false_positive",
  "source_object_type": "rule_run",
  "source_object_id": "",
  "before": {},
  "after": {},
  "comment": "",
  "created_by": "",
  "created_at": ""
}
```

## 4. 反馈流向

```text
人工反馈
  ↓
反馈池
  ↓
Hermes 聚类分析
  ↓
候选改进项
  ↓
人工审核
  ↓
更新规则 / 知识 / OCR 映射 / Prompt
```

## 5. 反馈不直接自动生效

反馈只能生成候选，不直接修改线上规则。

必须人工审核：

- 规则修改。
- 知识发布。
- Prompt 修改。
- OCR 字段映射调整。

## 6. Hermes 每日反馈复盘

Hermes 每日任务：

```text
读取昨日反馈
聚类相似问题
统计误报高发规则
统计低评分回答
生成优化候选
```

输出：

```text
rule_improvement_candidates
knowledge_update_candidates
ocr_mapping_candidates
prompt_improvement_notes
```

## 7. 质量指标

建议监控：

```text
ocr_correction_rate
rule_false_positive_rate
rule_false_negative_rate
agent_answer_like_rate
agent_answer_rewrite_rate
knowledge_no_hit_rate
mcp_failure_rate
```

## 8. 开发阶段建议

```text
Step 1: 增加反馈按钮和反馈表
Step 2: OCR 修正写入反馈池
Step 3: 规则误报/漏报反馈
Step 4: Agent 回答反馈
Step 5: Hermes 每日反馈聚类
Step 6: 生成优化候选
Step 7: 人工审核发布
Step 8: 建立质量看板
```