无需请求的帮助:一个用于随叫随到支持的主动代理系统,具有持续自我改进能力
Vigil是一个部署在字节跳动火山引擎上的主动代理系统,旨在减轻云服务平台上人类支持分析师的工作负担。与传统的反应型代理不同,Vigil在整个呼叫生命周期中提供支持,主动参与客户与分析师的对话,并通过从人类解决的案例中提取知识来持续改进其能力。经过十个月的部署,Vigil展示了其在实际应用中的有效性和实用性,成为云服务支持领域的重要工具。
Vigil是一个部署在字节跳动火山引擎上的主动代理系统,旨在减轻云服务平台上人类支持分析师的工作负担。与传统的反应型代理不同,Vigil在整个呼叫生命周期中提供支持,主动参与客户与分析师的对话,并通过从人类解决的案例中提取知识来持续改进其能力。经过十个月的部署,Vigil展示了其在实际应用中的有效性和实用性,成为云服务支持领域的重要工具。
Anthropic Engineering的研究表明,在代理编码评估中,基础设施配置的差异可能导致评估结果的波动,甚至超过模型排行榜之间的差距。在Terminal-Bench 2.0的内部实验中,最优和最差资源配置之间的分数差异达到6个百分点。该研究强调,静态基准测试直接对模型输出评分,而代理编码评估则提供完整的环境,模型在其中编写程序、运行测试并安装依赖项。研究还发现,基础设施错误率高达6%,大部分与模型解决任务的能力无关。这一发现对开发者和研究人员来说,意味着在评估模型能力时,必须考虑基础设施配置对结果的影响。
本文讨论了在使用开源模型进行工具调用时遇到的挑战。不同的模型家族在调用工具时采用不同的格式,这导致输出可能出现混乱,如参数中的推理标记、格式错误的JSON等。为了适应这些不同的格式,开发者需要为每个模型编写自定义解析器,这增加了实现的复杂性。文章还提到,像Gemma 4这样的模型在解码器处理推理标记时会出现问题,导致解析器错误。解决这些问题需要开发新的编程语言和工具来管理这些系统,尽管有些人认为随着模型的进步,这些努力可能会被淘汰。作者认为,分布式系统的文献中有很多关于此类问题的研究成果可以借鉴。
Anthropic Engineering推出了Claude平台的Managed Agents服务,旨在解决长时间运行的代理设计问题。Managed Agents通过虚拟化代理的组件,如会话、控制环和沙箱,来实现持久性和灵活性。这种设计借鉴了操作系统将硬件虚拟化为抽象的历史经验,使得代理可以在不断变化的实现下保持稳定。该服务通过一组接口运行长时间的代理任务,适应模型改进带来的变化。这一创新为开发者提供了一个稳定的基础来构建未来的程序,支持长时间的自动化任务。
LABBench2是一个用于评估AI系统在生物研究中实际能力的基准测试,继承并扩展了LAB-Bench的工作。该基准包含近1900个任务,旨在更真实的情境中测试AI的科学任务执行能力。与前代相比,LABBench2的难度显著增加,模型在子任务中的准确率下降了26%到46%。这一基准的推出为AI在科学研究中的应用提供了更高的挑战和改进空间,推动AI工具在核心研究功能上的发展。数据集和评估工具已在Hugging Face和GitHub上公开。
这篇论文介绍了一种新的评估框架——加速提示压力测试(APST),用于深入评估大型语言模型(LLM)的安全性。传统的评估方法如HELM和AIR-BENCH主要通过广泛的任务评估模型的安全风险,但在实际应用中,模型在重复使用相同提示时可能会出现操作性故障。APST通过在控制条件下重复采样相同提示,揭示模型的潜在故障模式,如幻觉、拒绝不一致和不安全的完成。研究表明,不同温度下的重复采样揭示了模型在可靠性上的显著差异,这对模型在高风险环境中的应用具有重要意义。
GLM-5.1 是 Z.ai 推出的新一代旗舰模型,专注于代理工程,具有显著增强的编码能力。该模型在 SWE-Bench Pro 上达到了最先进的性能,并在 NL2Repo 和 Terminal-Bench 2.0 上大幅领先于前代 GLM-5。GLM-5.1 的主要突破在于其在长时间任务中的持续有效性,能够在数百轮和数千次工具调用中保持优化。该模型能够更好地处理模糊问题,进行实验、读取结果并识别阻碍因素,通过反复迭代优化策略来提高性能。GLM-5.1 支持多种开源框架的本地部署,如 SGLang、vLLM 和 Transformers,适用于多种编程和推理任务。
MiniMax-M2.7 是 MiniMaxAI 推出的首个深度参与自身进化的模型,具备构建复杂代理工具和完成高复杂度生产力任务的能力。该模型在 MLE Bench Lite 上达到了 66.6% 的奖牌率,仅次于 Opus-4.6 和 GPT-5.4。M2.7 在 SWE-Pro 上的表现与 GPT-5.3-Codex 相当,并在多语言 SWE Bench 和 VIBE-Pro 等基准测试中表现出色。该模型支持多代理协作,具有稳定的角色身份和自主决策能力,显著缩短了生产事件恢复时间。
DeepReviewer 2.0是一个面向科学同行评审的可追溯代理系统,旨在生成可审核的评审包。该系统通过构建手稿的声明-证据-风险账本和验证议程,提供锚定的批评和可执行的后续行动。在ICLR 2025的134篇投稿中,该系统的表现优于Gemini-3.1-Pro-preview,并在与人类评审委员会的盲比较中赢得了71.63%的微平均胜率。DeepReviewer 2.0被定位为辅助工具,而非决策代理。