解决通过 agent 落地工程过程中的幻觉、代码质量低等问题 以 SDD 作为设计控制层,约束 Agent 的行为与输出;通过浏览器侧 MCP 获取结构化的 Web 运行时上下文;并将前端工程师的经验沉淀为 RAG 长期记忆,使 Agent 能够在真实工程环境中理解界面、遵循设计规范并持续学习。 未来可以支持利用 GUI Agent 实现自动 测试
- 前端侧工程化的agent(应该是以插件形式)输入SDD提高输出可控性,(能支持理解web结构
- 通过浏览器 MCP 理解 web 结构
- 通过将前端工程师的经验存储在 RAG 作为长期记忆数据库提高 agent 输出质量
- 未来可以支持利用 GUI Agent 实现自动 测试
请为我设计并实现一个工程级 Agent 系统
你是一名 高级 Agent 系统架构师 + 资深工程师。
你的任务不是“使用 Agent”,而是 从 0 到 1 设计并实现一个 Agent 项目本身。
⸻
一、项目目标(你必须严格对齐)
我要构建一个 工程级 Agent 系统,用于解决以下问题:
1. Agent 在真实工程中落地时容易产生幻觉(Hallucination)
2. 生成的代码质量不稳定、不符合项目规范
3. Agent 无法可靠感知 Web 运行时上下文
4. Agent 对工程文件和代码的修改缺乏安全边界
⸻
二、核心设计思想(不可偏离)
该 Agent 系统必须满足以下三点核心设计约束:
1️⃣ 以 SDD(Specification Driven Development)作为「设计控制层」
• SDD 不是文档参考,而是:
• Agent 行为的 硬约束来源
• 决定:
• 允许的模块边界
• 禁止的改动类型
• 技术栈、目录结构、命名规范
• Agent 的所有决策与输出,必须可追溯到 SDD
你需要设计:
• SDD 的数据结构(建议结构化,如 JSON / YAML)
• SDD → Agent 约束的解析机制
⸻
2️⃣ 通过 MCP(Model Context Protocol)实现「可控感知与执行」
MCP 在该系统中承担 唯一可信的外部世界接口,包括:
(1)浏览器结构化 Web 运行时感知
• Agent 不能直接猜测 DOM / 页面结构
• 必须通过 MCP 获取:
• 结构化页面信息(DOM / Accessibility Tree / 语义树)
• 可交互能力(点击、输入、滚动等)
(2)工程文件与代码修改
• Agent 不能直接输出“最终代码”当作修改
• 必须通过 MCP 提供的:
• read_file
• apply_patch
• create_file
• 等工具完成修改
• 修改必须是:
• 最小 diff
• 可回滚
• 可校验
⸻
3️⃣ 目标导向:显著降低幻觉、提升工程可靠性
你在设计时,需要明确回答:
• 幻觉在这个系统中从哪里产生
• 每一层(SDD / MCP / Agent Planner / Executor)如何约束幻觉
• 哪些幻觉是“设计上不允许出现的”
⸻
三、你需要输出的内容(请按顺序)
1️⃣ 整体系统架构设计
• 模块划分(Agent Core / MCP Server / SDD Layer 等)
• 数据流与控制流
• 各模块职责边界
2️⃣ 关键模块详细设计
至少包括:
• SDD 控制层
• Agent Planner(如何基于约束规划)
• MCP Web Adapter(浏览器感知)
• MCP File Adapter(代码修改)
• 幻觉防控机制
3️⃣ 技术选型与社区方案参考(非常重要)
请给出 真实可用的工具 / 库 / 社区方案,例如:
• 浏览器自动化 / Web 结构感知
• AST / Diff / Code Mod
• MCP Server 的实现方式
• Agent / Tooling 相关开源项目
并说明:
• 为什么选它
• 在该系统中承担什么角色
4️⃣ 最小可运行示例(MVP)
• 一个最小 Agent 执行流程
• 示例 MCP 接口定义
• 示例 SDD 结构
• 示例代码修改流程
⸻
四、输出要求(工程向)
• 偏工程设计,而不是论文
• 可以包含:
• 架构图(文字描述即可)
• 目录结构
• 示例代码(TypeScript / Python 均可)
• 避免泛泛而谈,不要停留在概念层
⸻
五、重要限制
• 不要假设“模型会自动理解”
• 所有能力必须通过 工程机制 实现
• 默认运行在 真实工程环境,而非 Demo