Files
JARVIS/development-doc/plan/2026-04-03-jarvis-agents-2-day-work-checklist.md
WIN-JHFT4D3SIVT\caoxiaozhu aa0ef0fbea feat: add Jarvis agent verification foundation
Add Day 1 agent runtime foundations with task and event schemas, verifier support, capability metadata, graph event tracing, and regression coverage while preserving the direct execution path.
2026-04-03 15:18:08 +08:00

6.9 KiB
Raw Blame History

Jarvis Agents 2 天工作计划(可勾选执行版)

日期2026-04-03
状态:执行清单
适用范围:基于 phase-0 ~ phase-4 及现有 2 天融合方案整理


使用说明

  • 完成前使用 - [ ]
  • 完成后改成 - [x]
  • Day 2 默认依赖 Day 1 的核心底座完成后再推进

Day 1补底座完成 Phase 1 最小闭环

Day 1 目标:先把 Jarvis 从“只有静态路由”补成“有任务结构、有事件结构、有 verifier、有工具治理信息”的可扩展底座同时不破坏当前 direct 主路径。

  • 新增最小 task schema 改造内容:新增 backend/app/agents/schemas/task.py,统一 task_idtitlestatusowner_agent_idevidenceresult_summary,并补 rolegoalexpected_evidencecreated_atupdated_at;状态固定为 pendingin_progresscompletedfailedblocked

  • 新增最小 event schema 改造内容:新增 backend/app/agents/schemas/event.py,统一 event_idevent_typetimestampconversation_idagent_idsub_commander_idtask_idpayloadseverity;首批事件类型覆盖 agent.tool.startagent.tool.resultagent.verify.startedagent.verify.completedagent.error

  • 扩展 backend/app/agents/state.py 的运行时字段 改造内容:新增 execution_modeverification_statusverification_summaryverification_evidenceactive_taskstask_resultsevent_tracebudget_state;默认值保持兼容 initial_state(),不替换现有 pending_taskscompleted_taskstool_calls

  • 扩展 capability / tool metadata 模型 改造内容:在 backend/app/agents/registry/models.py 增加 permission_classside_effect_scopesupports_retryidempotentsafe_for_parallel_userequires_confirmation;至少先固化 read / write / externalnone / local_state / db_write / network 两组枚举语义。

  • 回填 builtin tools 的静态 metadata 改造内容:在 backend/app/agents/registry/builtins.py 和需要的 backend/app/agents/tools/__init__.py 中,把 search / retrieval 类工具标成偏 readcreate / update 类工具标成偏 write,外部检索类工具标成 external,并补充是否可重试、是否幂等、是否适合并行等标记。

  • 新增 verifier 角色定义 改造内容:在 backend/app/agents/prompts.py 增加 verifier prompt明确 verifier 只负责验收,不负责重新规划;验收点聚焦“是否真正满足请求”“是否有明确证据”“是否把失败伪装成成功”。

  • 落地 verifier 模块 改造内容:新增 backend/app/agents/verifier.py,支持 passedfailedskipped 三类最小结论,先服务于工具调用后的复杂输出、知识检索结果和分析型汇总输出,不接管纯闲聊路径。

  • backend/app/agents/graph.py 接入最小 event trace 与 verifier helper 改造内容:给 _execute_tool_calls() 增加 tool start / result / error 事件写入;给收尾阶段增加 verifier helper 调用;给 _run_sub_commander() 增加 task result 摘要写入,但暂时不重构主图为完整协作编排图。

  • 补 Phase 1 单元测试与回归测试 改造内容:新增 backend/tests/backend/app/agents/test_agent_schemas.pybackend/tests/backend/app/agents/test_verifier.py,并扩展 test_graph.py,覆盖 state 兼容性、schema 合法性、tool metadata 存在性、verifier 判定、主流程不回退。

  • 完成 Day 1 验收 改造内容:确认 reminder / task / search 主流程继续通过;确认 verifier 已能独立运行;确认 event schema 与 task schema 已落代码;确认 direct 仍是默认主路径;确认未引入动态 create_agent、message bus 全链路和 UI。


Day 2引入最小协作能力完成 Phase 2 雏形

Day 2 目标:在 Day 1 底座稳定的基础上,给 Jarvis 增加“复杂请求可拆分、可分配、可回收、可验收”的最小受控协作能力,但仍然不进入自由 swarm。

  • 增加 request_mode_selector 改造内容:在 backend/app/agents/graph.py 中增加 direct / collaboration 模式选择逻辑;简单请求继续走旧路径,只有明显多步骤、跨领域、需要多角色配合的请求才进入 collaboration mode。

  • 新增 coordinator prompt 改造内容:在 backend/app/agents/prompts.py 中定义 coordinator 角色,职责限定为“判断是否拆解”“输出 2~4 个清晰子任务”“分配角色建议”“汇总任务结果”;明确禁止无限递归拆分。

  • 新增最小 task decomposition 结构 改造内容:基于 Day 1 的 task schema 扩展最小拆分结构,至少输出 task_idtitlerolegoalexpected_evidence,让复杂请求能以结构化任务列表进入后续执行。

  • 增加 role -> existing agent assignment 改造内容:先复用当前已有 top-level agent不新增独立 worker runtime把 schedule 类任务映射给 schedule_plannerretrieval 类任务映射给 librariananalysis 类任务映射给 analystexecution 类任务映射给 executor

  • 建立统一 task result 回收结构 改造内容:约束每个角色统一返回 task_idstatussummaryevidencenext_action(可选),并把结果写回 task_results,避免最终结果继续依赖单点硬编码拼接。

  • 让 verifier 强制参与协作结果收尾 改造内容:在 collaboration mode 下,所有复杂请求返回前都必须经过 verifierverifier 有权拒绝证据不足、结果不完整、子任务未闭环的响应。

  • 补 Phase 2 协作测试与回归测试 改造内容覆盖复杂请求拆分测试、角色分配测试、task result 汇总测试、verifier 拒绝不完整结果测试,并再次确认 direct 模式原有流程不回退。

  • 完成 Day 2 验收 改造内容:确认 graph 已能区分 direct / collaboration确认复杂请求可拆成 2~4 个子任务;确认每个子任务有 owner 和 evidence确认最终答案基于 task result 汇总;确认系统仍未进入无限动态 agent 模式。


这 2 天明确不做

  • 不做动态 create_agent
  • 不做 parent / child agent tree
  • 不做内部消息线程长期态管理
  • 不做可视化调试面板
  • 不做 event stream API
  • 不做 worktree / 隔离执行
  • 不做自由蜂群式协作

2 天结束后的预期状态

  • 已具备 direct / collaboration 双模式入口
  • 已具备 verifier 独立验收层
  • 已具备 task schema / event schema / tool metadata 底座
  • 已具备 coordinator 雏形、任务拆分、角色分配、结果回收
  • 当前 reminder / task / search 主路径无明显回退
  • 后续可以继续推进 Phase 3 的受限动态协作,而不是返工 Phase 1 / Phase 2 底座