University of California, Santa Barbara · Eric AI Lab

GEA — 群体进化智能体

基于经验共享的开放式自我改进。SWE-bench 71.0%，Polyglot 88.3%。零额外推理成本匹配人工工程化系统。

摘要

群体进化智能体（GEA）提出了一种全新的 AI 系统开放式自我改进范式。与当前主流框架中将单个智能体作为进化单元的"孤狼"式方法不同，GEA 将一组智能体作为基本的进化单位。组内智能体可以自主修改自身结构设计以提升能力并克服局限。共享的经验池被每一个未来的智能体作为既定事实继承，从而实现了初始探索的多样性并随时间不断演化。

在具有挑战性的编码基准测试中，GEA 达到 71.0%（SWE-bench Verified），而此前自我进化方法仅为 56.7%；在 Polyglot 上达到 88.3% vs 68.3%。GEA 以零额外推理成本匹配了人工工程化的 AI 系统（71.0% vs 71.8% OpenHands+GPT-5）。

核心概念

群体为单位

进化作用于群体层面而非个体。每次迭代选择 K 个父代智能体组成群体，共同产生同等大小的子代群体。超参数：K=2，M=4。

经验共享

父代群体中每个智能体的进化轨迹（代码补丁、失败任务、预测补丁、执行日志、评估结果）被聚合为群体级经验池 S，所有子代智能体从中学习。

开放式增长

没有预设的能力目标。通过 Performance-Novelty 选择策略平衡即时性能与探索新颖性，系统持续发现新策略并纳入自身。

范式转换

树状结构进化 (DGM)

× 每次迭代选择单个智能体作为父代
× 进化分支严格隔离，无跨分支经验共享
× 反思模块仅接收自身进化轨迹
× 早期探索的多样性成为"临时多样性"

群体进化 (GEA)

✓ 每次迭代选择 K 个智能体组成父代群体
✓ 显式的群体内经验共享与复用
✓ 共享经验池 $S = \bigcup T_j$ 聚合所有父代轨迹
✓ Top-1 智能体整合了 17 个祖先 (28.3%)，DGM 仅 9 个 (15.0%)

系统架构

GEA 的三大核心组件：Archive → Parent Group Selection → Group Evolution

Archive（档案库）

符号：𝒜。存储进化过程中发现的所有智能体。每个智能体 i 用任务成功向量 $z_i \in \{0,1\}^D$ 表示，并关联性能分数 $\alpha_i$。其中 D 是探测任务集合的大小，每个维度表示智能体是否成功解决对应的探测任务。

核心算法

公式 1：余弦距离

Cosine Distance

$$d(i,j) = 1 - \frac{z_i^\top z_j}{\|z_i\|_2 \|z_j\|_2 + \varepsilon}$$

其中 ε 是数值稳定性的小常数。距离越大表示两个智能体的能力分布越不同。

公式 2：KNN Novelty

KNN Novelty (M=4)

$$\mathrm{nov}(i) = \frac{1}{M} \sum_{j \in \mathcal{N}_M(i)} d(i,j)$$

N_M(i) 是与智能体 i 余弦距离最小的 M 个智能体的集合。实验中 M=4。

公式 3：Performance-Novelty 综合得分

Selection Score

$$\mathrm{score}(i) = \alpha_i \cdot \sqrt{\mathrm{nov}(i)}$$

性能作为主要选择标准，新颖性作为温和的偏差，实现利用与探索之间的平衡。

进化流程

父代群体选择：计算余弦距离 → 找出 M 个最近邻 → 计算新颖性 → 综合得分排序 → 选取 top-K 组成父代群体
收集轨迹：对每个父代智能体收集 $\mathcal{P}_i^{\mathrm{Applied}}, \mathcal{P}_i^{\mathrm{pred}}, \mathcal{L}_i, \mathcal{O}_i$
聚合经验：$S = \bigcup_{a_j \in \mathcal{G}} T_j$
反思与进化：$\Delta_i \leftarrow \mathrm{Reflect}(a_i; S) \to \mathrm{Evolve} \to \mathrm{ApplyPatch}$
评估与归档：编译检查 → 任务评估 → 加入档案库 $\mathcal{A} \leftarrow \mathcal{A} \cup \{a_i'\}$

实验设置

SWE-bench Verified

三阶段评估：健全性检查 (10 tasks) → Verified-Mini (50 tasks) → 完整基准 (仅 top-2)。30 次迭代，前 20 次用 Claude Haiku 4.5，后 10 次用 Claude Sonnet 4.5，反思全程用 GPT-o1。

Polyglot

跨多语言算法代码生成（C++、Rust、Java 等）。20 次迭代，前 10 次 Haiku 4.5，后 10 次 Sonnet 4.5。成功率超 40% 的智能体在 50 个未见任务上评估。

超参数：K = 2, M = 4 | 基线对比：DGM (60/40 次迭代) vs 人工设计 (OpenHands+GPT-5, Aider+GPT-5)

实验结果

基准	GEA	DGM	人工设计
SWE-bench Verified	71.0%	56.7%	71.8%
Polyglot	88.3%	68.3%	52.0%

鲁棒性 (Bug 修复迭代)

方法	E1	E2	E3	E4	E5	平均
DGM	5	4	5	6	5	5.0
GEA	1	1	2	1	2	1.4

成本估算

SWE-bench: ~$13,000/方法 | Polyglot: ~$1,500/方法。GEA 与 DGM 生成相同数量智能体，成本接近。

边界与限制

适用范围

主要针对编码智能体的开放式自我改进。适用于需要智能体修改自身框架（工作流、工具使用、提示策略）的场景。

计算成本

完整运行一次约需 $13,000 (SWE-bench) 或 $1,500 (Polyglot)。依赖 GPT-o1 与 Claude 4.5 系列模型。

对齐风险

开放式探索可能意外引入偏离人类目标的进化方向。补丁可能产生越来越复杂、难以完全理解的系统。