Phase 7: Built-in Hooks (audit_log, dangerous_confirmation, security_scan) Phase 8: Plugin system (PluginManager, PluginSandbox, PluginManifest) Phase 9: Skills registry (SkillRegistry, local/plugin/MCP loaders) Phase 10: TeamLeader, RemoteTransport, BackgroundTaskManager
23 KiB
Jarvis Agents 8 天工作计划(可勾选执行版)
日期:2026-04-03
状态:执行清单
适用范围:基于 phase-0 ~ phase-5 及现有融合方案整理
借鉴来源:Claude Code CLI、Swarm-IDE、Claw Code、VCPToolBox
使用说明
- 完成前使用
- [ ] - 完成后改成
- [x] - Day 2 默认依赖 Day 1 的核心底座完成后再推进
- Day 3 默认依赖 Day 2 的最小协作闭环完成后再推进
- Day 4 默认依赖 Day 3 的动态协作完成后再推进
- Day 5 默认依赖 Day 4 的可见性 API 完成后再推进
- Day 6 默认依赖 Day 5 的隔离执行完成后再推进
- Day 7 默认依赖 Day 6 的成本监控完成后再推进
Day 1:补底座,完成 Phase 1 最小闭环
Day 1 目标:先把 Jarvis 从"只有静态路由"补成"有任务结构、有事件结构、有 verifier、有工具治理信息"的可扩展底座,同时不破坏当前 direct 主路径。
-
新增最小
task schema改造内容:新增backend/app/agents/schemas/task.py,统一task_id、title、status、owner_agent_id、evidence、result_summary,并补role、goal、expected_evidence、created_at、updated_at;状态固定为pending、in_progress、completed、failed、blocked。 -
新增最小
event schema改造内容:新增backend/app/agents/schemas/event.py,统一event_id、event_type、timestamp、conversation_id、agent_id、sub_commander_id、task_id、payload、severity;首批事件类型覆盖agent.tool.start、agent.tool.result、agent.verify.started、agent.verify.completed、agent.error。 -
扩展
backend/app/agents/state.py的运行时字段 改造内容:新增execution_mode、verification_status、verification_summary、verification_evidence、active_tasks、task_results、event_trace、budget_state;默认值保持兼容initial_state(),不替换现有pending_tasks、completed_tasks、tool_calls。 -
扩展 capability / tool metadata 模型 改造内容:在
backend/app/agents/registry/models.py增加permission_class、side_effect_scope、supports_retry、idempotent、safe_for_parallel_use、requires_confirmation;至少先固化read/write/external和none/local_state/db_write/network两组枚举语义。 -
回填 builtin tools 的静态 metadata 改造内容:在
backend/app/agents/registry/builtins.py和需要的backend/app/agents/tools/__init__.py中,把 search / retrieval 类工具标成偏read,create / update 类工具标成偏write,外部检索类工具标成external,并补充是否可重试、是否幂等、是否适合并行等标记。 -
新增 verifier 角色定义 改造内容:在
backend/app/agents/prompts.py增加 verifier prompt,明确 verifier 只负责验收,不负责重新规划;验收点聚焦"是否真正满足请求""是否有明确证据""是否把失败伪装成成功"。 -
落地 verifier 模块 改造内容:新增
backend/app/agents/verifier.py,支持passed、failed、skipped三类最小结论,先服务于工具调用后的复杂输出,知识检索结果和分析型汇总输出,不接管纯闲聊路径。 -
在
backend/app/agents/graph.py接入最小 event trace 与 verifier helper 改造内容:给_execute_tool_calls()增加 tool start / result / error 事件写入;给收尾阶段增加 verifier helper 调用;给_run_sub_commander()增加 task result 摘要写入,但暂时不重构主图为完整协作编排图。 -
补 Phase 1 单元测试与回归测试 改造内容:新增
backend/tests/backend/app/agents/test_agent_schemas.py、backend/tests/backend/app/agents/test_verifier.py,并扩展test_graph.py,覆盖 state 兼容性、schema 合法性、tool metadata 存在性、verifier 判定、主流程不回退。 -
完成 Day 1 验收 改造内容:确认 reminder / task / search 主流程继续通过;确认 verifier 已能独立运行;确认 event schema 与 task schema 已落代码;确认 direct 仍是默认主路径;确认未引入动态
create_agent、message bus 全链路和 UI。
Day 2:引入最小协作能力,完成 Phase 2 雏形
Day 2 目标:在 Day 1 底座稳定的基础上,给 Jarvis 增加"复杂请求可拆分、可分配、可回收、可验收"的最小受控协作能力,但仍然不进入自由 swarm。
-
增加
request_mode_selector改造内容:在backend/app/agents/graph.py中增加 direct / collaboration 模式选择逻辑;简单请求继续走旧路径,只有明显多步骤、跨领域、需要多角色配合的请求才进入 collaboration mode。 -
新增 coordinator prompt 改造内容:在
backend/app/agents/prompts.py中定义 coordinator 角色,职责限定为"判断是否拆解""输出 2~4 个清晰子任务""分配角色建议""汇总任务结果";明确禁止无限递归拆分。 -
新增最小 task decomposition 结构 改造内容:基于 Day 1 的 task schema 扩展最小拆分结构,至少输出
task_id、title、role、goal、expected_evidence,让复杂请求能以结构化任务列表进入后续执行。 -
增加 role -> existing agent assignment 改造内容:先复用当前已有 top-level agent,不新增独立 worker runtime;把 schedule 类任务映射给
schedule_planner,retrieval 类任务映射给librarian,analysis 类任务映射给analyst,execution 类任务映射给executor。 -
建立统一 task result 回收结构 改造内容:约束每个角色统一返回
task_id、status、summary、evidence、next_action(可选),并把结果写回task_results,避免最终结果继续依赖单点硬编码拼接。 -
让 verifier 强制参与协作结果收尾 改造内容:在 collaboration mode 下,所有复杂请求返回前都必须经过 verifier;verifier 有权拒绝证据不足、结果不完整,子任务未闭环的响应。
-
补 Phase 2 协作测试与回归测试 改造内容:覆盖复杂请求拆分测试、角色分配测试、task result 汇总测试、verifier 拒绝不完整结果测试,并再次确认 direct 模式原有流程不回退。
-
完成 Day 2 验收 改造内容:确认 graph 已能区分 direct / collaboration;确认复杂请求可拆成 2~4 个子任务;确认每个子任务有 owner 和 evidence;确认最终答案基于 task result 汇总;确认系统仍未进入无限动态 agent 模式。
Day 3:引入受限动态协作能力,完成 Phase 3 最小闭环
Day 3 目标:在 Day 2 已具备最小协作编排能力的基础上,让 Jarvis 获得"可追踪、可中断、可恢复、受预算约束"的动态协作 runtime,但依然不进入无限自由 swarm。
当前实现状态(2026-04-03):Day 3 最小闭环已基本落地。backend/app/agents/state.py 已补齐协作树、thread/message、interrupt/recovery、budget 相关 runtime 字段;backend/app/agents/graph.py 已接入受限 child agent 创建、message trace、spawn budget guardrail、interrupt / recovery 最小闭环与协作结果回收;backend/app/agents/registry/* 已补齐 spawn role policy 并接入 graph 校验。
-
扩展
backend/app/agents/state.py记录协作树基础字段 当前状态:state.py已补齐agent_id、parent_agent_id、root_agent_id、collaboration_depth、spawned_agent_ids、interrupted_tasks、recovery_points、message_trace等 Day 3 runtime 字段,并由initial_state()完成兼容初始化。 -
定义动态协作 budget state 当前状态:已新增
CollaborationBudgetschema,并在 graph 中通过budget_state/collaboration_budget_history落地max_spawn_depth、max_child_agents、max_messages_per_thread、max_messages_per_turn、max_parallel_collaborators、recovery_attempt_limit等 guardrail metadata。 -
增加受限
create_agent运行时原语 改造内容:新增最小动态创建能力,仅允许在 collaboration mode 下、由受限角色、在 budget 允许时创建 child agent;创建过程会记录 parent / child 关系,并在受限时转入 interrupt / recovery 回退路径。 -
增加 agent spawn permission / role policy 改造内容:已在
backend/app/agents/registry/*中补齐角色 spawn policy,并通过 registry indexes 接入graph.py的运行时权限校验,禁止任意角色无限派生。 -
新增最小 message / thread schema 改造内容:已补齐
message_id、thread_id、from_agent_id、to_agent_id、task_id、reply_to_message_id、message_type、content_summary、created_at等结构,支持task_request、task_update、handoff、verification_request、verification_feedback、interrupt_notice。 -
在
backend/app/agents/graph.py接入受限动态协作分支 改造内容:coordinator / worker 在满足条件时可以请求受限协作;graph 已接入 child agent 创建、message thread 写入、spawn budget 校验与回收逻辑,简单请求仍优先走 direct 路径。 -
扩展 event trace 覆盖动态协作生命周期 改造内容:event trace 已覆盖
agent.created、agent.spawn.blocked、agent.message.sent、agent.message.received、agent.interrupt.requested、agent.interrupt.completed、agent.recovery.started、agent.recovery.completed等关键事件。 -
增加 interrupt / recovery 最小闭环 改造内容:已支持中断协作任务、记录中断点,并基于
task_id/thread_id/ budget 进行最小恢复路径记录与回退。 -
增加 Day 3 测试与回归验证 改造内容:补充 parent / child tracking、spawn role policy、message thread、interrupt / recovery、动态协作事件记录等测试,并继续确认 direct 主路径不回退。
-
完成 Day 3 验收 改造内容:系统已支持受限动态创建 agent,协作树和 message thread 可追踪,interrupt / recovery 可跑最小闭环,动态能力受 budget 与 role policy 约束,且仍不是自由蜂群式协作。
Day 4:引入可见性 API,完成 Phase 4 可视化方向
Day 4 目标:在 Phase 1-3 已具备协作 runtime 的基础上,让 Jarvis 获得"可看、可查、可调试"的可见性 API,为后续复杂任务调试和执行打下基础。
当前实现状态(2026-04-04):Phase 1-3 最小闭环已基本落地;Day 4 后端可见性最小闭环已完成。可见性 API 直接读取 continuity snapshot 中保存的 runtime state(如 event_trace、message_trace、active_tasks、task_results、task_hierarchy、verification_*、tool_outcomes),并已补 focused API 测试。
-
固化可见性数据源并增加 events 查询 API 改造内容:已在
backend/app/routers/agent.py暴露GET /api/agents/visibility/events,支持按conversation_id/thread_id/agent_id/event_type过滤event_trace,并支持分页与时间范围查询。 -
新增协作链路拓扑查询 API 改造内容:已新增
GET /api/agents/visibility/topology,基于 state 中的spawned_agent_ids、task_hierarchy、root_agent_id、active_tasks、task_results构建协作拓扑视图,返回 agent 节点、父子边与 task 摘要。 -
新增 task 执行证据查询 API 改造内容:已新增
GET /api/agents/visibility/tasks/{task_id}/evidence,基于 state 中的task_results、tool_outcomes、verification_*返回指定 task 的执行证据链。 -
新增 message thread 查询 API 改造内容:已新增
GET /api/agents/visibility/threads/{thread_id}/messages,基于message_trace返回指定 thread 内所有消息的方向、摘要、时间和关联 task。 -
新增 verifier 结果查询 API 改造内容:已新增
GET /api/agents/visibility/verifier,基于verification_status、verification_summary、verification_evidence返回当前协作会话的验收结论和证据。 -
补 Day 4 可见性 API 测试 改造内容:已新增
backend/tests/backend/app/agents/test_visibility_api.py,覆盖 event filter / pagination、topology 构建、evidence 查询、thread 消息重建、verifier 查询、非法 datetime 参数校验等场景。 -
完成 Day 4 验收 改造内容:已确认 visibility API 可查询事件、拓扑、task evidence、thread 消息与 verifier 结果;并已确认原有 reminder / task / search 主路径不在 Day 4 范围内被改坏。
Day 5:升级 operator/debug surface(已完成)
Day 5 目标:把 Day 4 的只读可见性 API 真正接到前端 Agents 页面,形成最小 operator/debug surface。
-
接入 runtime summary API 到前端
agentApi改造内容:在frontend/src/api/agent.ts增加 runtime summary 类型与getRuntimeSummary()查询方法。 -
在 Agents 页面展示 phase/checkpoint/verifier/isolation/cost 摘要 改造内容:在
frontend/src/pages/agents/index.vue与useAgentsPage.ts中加入 runtime summary HUD,展示 execution mode、phase、checkpoint、verifier、isolation、token/cost、task/node 统计。 -
让 Agents 页面使用当前会话
conversation_id改造内容:复用frontend/src/stores/conversation.ts的currentConversationId,不再使用伪造的latest占位值。 -
修复 Agents 页面关键乱码与兜底文案 改造内容:修复配置抽屉、状态文案、master task 文案等可见乱码,并为未选会话场景提供清晰提示。
-
补前端运行时面板测试 改造内容:补
frontend/src/pages/agents/agentsPage.test.ts,覆盖 runtime summary 渲染、无会话提示、会话 ID 传递。 -
完成 Day 5 验收 改造内容:确认 Agents 页面已经是可用的 operator/debug 入口,而不是只显示静态演示图。
Day 6:推进 isolation runtime MVP(90 分主线)
Day 6 目标:把 Day 4 的 isolation 设计从文档推进到最小运行时闭环,只做 none / session / worktree 三层。
当前实现状态(2026-04-04):Day 6 已落地 isolation runtime MVP。后端已新增 strategy_selector.py、session_isolation.py、worktree_isolation.py,并在 graph.py 中接入基于任务语义与 tool metadata 的 none / session / worktree 选择逻辑;隔离 metadata 会进入 state、event trace、task evidence 与 runtime summary,Agents 页面也可展示 workspace / isolation 状态。
-
实现 IsolationStrategySelector 改造内容:新增
backend/app/agents/isolation/strategy_selector.py,根据任务类型与 tool metadata 自动选择none / session / worktree。 当前状态:已新增backend/app/agents/isolation/strategy_selector.py,可基于用户请求语义、role 与 capability metadata 自动选择none / session / worktree。 -
实现 Session 隔离 改造内容:新增
backend/app/agents/isolation/session_isolation.py,支持上下文隔离、中间态隔离与 evidence 回传。 当前状态:已新增backend/app/agents/isolation/session_isolation.py,会生成独立 session isolation metadata,并把 parent conversation / role / sub commander / capability 信息写回 runtime state。 -
实现 Worktree 隔离 改造内容:新增
backend/app/agents/isolation/worktree_isolation.py,基于 git worktree 创建独立工作目录,回传 workspace/branch/cleanup metadata。 当前状态:已新增backend/app/agents/isolation/worktree_isolation.py,支持基于 git worktree 创建独立工作目录,回传 branch / repo_root / cleanup_status 等 metadata;创建失败时可回退到 session isolation。 -
集成隔离策略到 graph 改造内容:在
backend/app/agents/graph.py中接入策略选择与 evidence 输出,不做自动 merge-back。 当前状态:backend/app/agents/graph.py已接入 isolation selector / executor,运行时会记录agent.isolation.selected/agent.isolation.fallback事件,并把 isolation metadata 写入 evidence 与 task result。 -
补 Day 6 隔离测试 改造内容:新增隔离策略与 metadata 传播测试,覆盖 session/worktree 选择和 runtime summary 展示。 当前状态:已在
backend/tests/backend/app/agents/test_graph.py中补充 isolation selector / worktree fallback / runtime cost 联动测试;test_visibility_api.py继续覆盖 runtime summary 中的 isolation 暴露。 -
完成 Day 6 验收 改造内容:确认高副作用任务可进入 worktree,低副作用任务保持 direct/session 路径,主流程无回退。 当前状态:高副作用、代码/仓库语义请求可进入 worktree;普通状态写入或分析路径保持 session / direct;主流程回归测试已通过
test_graph.py。
Day 7:推进 cost governance MVP(90 分主线)
Day 7 目标:把 token/cost 从静态估算升级为会话级可治理能力。
当前实现状态(2026-04-04):Day 7 已从“静态展示”推进到最小 cost governance 闭环。graph.py 已稳定累计 input_tokens / output_tokens / estimated_cost,并按 conversation / child agent 维度写入 cost_by_agent;budget threshold 会触发 agent.cost.updated / agent.cost.warning 事件,后端也已暴露 conversation scoped cost API。
-
固化 runtime token 字段写入 改造内容:在 graph / service 层稳定记录
input_tokens、output_tokens、estimated_cost、budget_warning。 当前状态:backend/app/agents/graph.py已在每次 LLM 响应后提取 usage metadata,并稳定写入input_tokens、output_tokens、estimated_cost、budget_warning。 -
集成成本累计到 conversation / child agent 维度 改造内容:把协作 run 的 token/cost 汇总到 conversation summary,并保留子 agent 维度的来源信息。 当前状态:state 中已新增
cost_by_agent与cost_thresholds,并可通过/api/agents/visibility/cost返回 conversation 总量与 child agent 分摊。 -
增加 budget threshold 治理逻辑 改造内容:支持阈值警告、超额提示和 runtime summary 暴露。 当前状态:已新增默认 cost threshold 与 state override 机制,超阈值会写入
budget_warning并产生 warning 事件,runtime summary 与前端 HUD 均可见。 -
新增成本查询 API 改造内容:在现有 visibility surface 上补 conversation scoped cost 查询,而不是另起一套孤立接口。 当前状态:已新增
GET /api/agents/visibility/cost,返回 conversation scoped total / thresholds / by_agent breakdown。 -
补 Day 7 测试 改造内容:覆盖成本累计、阈值预警、runtime summary 成本字段。 当前状态:
backend/tests/backend/app/agents/test_graph.py已覆盖 runtime usage 写入与 threshold warning;test_visibility_api.py已补 cost summary 返回结构断言。 -
完成 Day 7 验收 改造内容:确认 cost 不再只是“可估算”,而是“可观察、可告警、可治理”。 当前状态:Day 7 当前已达到“可观察、可告警、可按会话/agent 查询”,仍未做到更高级的跨会话预算策略与持久化治理。
Day 8:90 分收口与工具治理增强
Day 8 目标:把现有 runtime 补成真正可运营的 90 分闭环,并明确下一批值得升级的工具能力。
当前实现状态(2026-04-04):Day 8 已完成 90 分主线收口。Agents 页面已从首屏 summary 升级为可查看 recent events、topology 节点摘要、verifier evidence、cost by agent 与 tool governance 的 operator/debug surface;后端也补齐了 /visibility/tools 能力分层查询。
-
增强 topology / recent events operator surface 改造内容:在 Agents 页面增加 recent events、拓扑摘要、verifier 证据入口,形成更完整的调试视图。 当前状态:前端
frontend/src/pages/agents/index.vue与useAgentsPage.ts已展示 recent events、topology 节点摘要与 verifier evidence 入口。 -
对工具能力做治理分层 改造内容:基于
permission_class、side_effect_scope、requires_confirmation、safe_for_parallel_use做工具分级和后续 UI 展示规划。 当前状态:后端已新增GET /api/agents/visibility/tools,基于permission_class、side_effect_scope、requires_confirmation、safe_for_parallel_use返回 tool governance 视图;前端已做 operator 展示。 -
识别值得升级/新增的工具能力 改造内容:优先考虑
worktree manager、cost inspector、runtime event drilldown、tool policy explorer,暂不做 TagMemo / AgentDream。 当前状态:operator surface 已显式暴露worktree_manager、cost_inspector、runtime_event_drilldown、tool_policy_explorer四项下一批 upgrade candidates。 -
完成 90 分结项回归 改造内容:统一回归 direct / collaboration / runtime summary / isolation / cost 关键路径,并更新 README / daily / checklist 结论。 当前状态:已完成
backend/tests/backend/app/agents/test_graph.py回归、frontend/src/pages/agents/agentsPage.test.ts前端回归,以及不依赖 pytest tmpdir 的 visibility API 手工验证;README / checklist 已同步更新。
这 8 天明确不做
- 不做无限自由的动态
create_agent - 不做无限层级的 parent / child agent tree
- 不做任意 agent 任意建群 / 广播
- 不做内部消息线程的复杂长期态治理
- 不做完整可视化调试面板(只做首屏 summary / HUD,不做完整实时 drilldown UI)
- 不做 Full Sandbox 完整实现(只做设计方案)
- 不做自由蜂群式协作
- 不做 Persistence(数据库持久化)
- 不做 Multi-turn Memory(跨会话记忆)
- 不做 Plugin System(插件系统)
- 不做 TagMemo(仿生记忆系统)
- 不做 AgentDream(仿生梦境系统)
8 天结束后的预期状态
- 已具备
direct/collaboration双模式入口 - 已具备 verifier 独立验收层
- 已具备 task schema / event schema / tool metadata 底座
- 已具备 coordinator 雏形、任务拆分、角色分配、结果回收
- 已具备受限动态协作 runtime 的最小实现闭环
- 当前 reminder / task / search 主路径无明显回退
- 已具备可见性 API 基础(events、topology、evidence、thread、verifier、runtime-summary)
- 已具备前端 Agents operator/debug 首屏
- 已具备 isolation strategy selector + session/worktree executor 的最小运行时闭环
- 已具备 conversation / child agent 维度的 cost governance 最小闭环
- 尚未具备 full sandbox / persistence / realtime push
- 90 分主线已明确为 isolation + cost + operator surface,而不是 TagMemo / AgentDream
后续可选特性(按需实施)
| 特性 | 预估时间 | 触发条件 |
|---|---|---|
| AgentDream(仿生梦境系统) | 1天 | Day 7完成后 |
| Persistence(持久化) | 2-3天 | 有审计需求时 |
| Advanced UI(完整前端面板) | 3-5天 | 有前端资源时 |
| Full Sandbox(完整沙箱) | 3-5天 | 有安全需求时 |
| Plugin System(插件系统) | 2-3天 | 有社区需求时 |