AI 日报 - 2026-04-15

📰 行业动态

无需请求的帮助：一个用于随叫随到支持的主动代理系统，具有持续自我改进能力

ArXiv CS.AI

Vigil是一个部署在字节跳动火山引擎上的主动代理系统，旨在减轻云服务平台上人类支持分析师的工作负担。与传统的反应型代理不同，Vigil在整个呼叫生命周期中提供支持，主动参与客户与分析师的对话，并通过从人类解决的案例中提取知识来持续改进其能力。经过十个月的部署，Vigil展示了其在实际应用中的有效性和实用性，成为云服务支持领域的重要工具。

📝 博客

量化代理编码评估中的基础设施噪声

Anthropic Engineering

Anthropic Engineering的研究表明，在代理编码评估中，基础设施配置的差异可能导致评估结果的波动，甚至超过模型排行榜之间的差距。在Terminal-Bench 2.0的内部实验中，最优和最差资源配置之间的分数差异达到6个百分点。该研究强调，静态基准测试直接对模型输出评分，而代理编码评估则提供完整的环境，模型在其中编写程序、运行测试并安装依赖项。研究还发现，基础设施错误率高达6%，大部分与模型解决任务的能力无关。这一发现对开发者和研究人员来说，意味着在评估模型能力时，必须考虑基础设施配置对结果的影响。

工具调用和开源模型的M×N问题

Hacker News

本文讨论了在使用开源模型进行工具调用时遇到的挑战。不同的模型家族在调用工具时采用不同的格式，这导致输出可能出现混乱，如参数中的推理标记、格式错误的JSON等。为了适应这些不同的格式，开发者需要为每个模型编写自定义解析器，这增加了实现的复杂性。文章还提到，像Gemma 4这样的模型在解码器处理推理标记时会出现问题，导致解析器错误。解决这些问题需要开发新的编程语言和工具来管理这些系统，尽管有些人认为随着模型的进步，这些努力可能会被淘汰。作者认为，分布式系统的文献中有很多关于此类问题的研究成果可以借鉴。

扩展管理代理：将大脑与双手分离

Anthropic Engineering

Anthropic Engineering推出了Claude平台的Managed Agents服务，旨在解决长时间运行的代理设计问题。Managed Agents通过虚拟化代理的组件，如会话、控制环和沙箱，来实现持久性和灵活性。这种设计借鉴了操作系统将硬件虚拟化为抽象的历史经验，使得代理可以在不断变化的实现下保持稳定。该服务通过一组接口运行长时间的代理任务，适应模型改进带来的变化。这一创新为开发者提供了一个稳定的基础来构建未来的程序，支持长时间的自动化任务。

📄 论文

LABBench2：用于生物研究的AI系统改进基准

ArXiv CS.AI

LABBench2是一个用于评估AI系统在生物研究中实际能力的基准测试，继承并扩展了LAB-Bench的工作。该基准包含近1900个任务，旨在更真实的情境中测试AI的科学任务执行能力。与前代相比，LABBench2的难度显著增加，模型在子任务中的准确率下降了26%到46%。这一基准的推出为AI在科学研究中的应用提供了更高的挑战和改进空间，推动AI工具在核心研究功能上的发展。数据集和评估工具已在Hugging Face和GitHub上公开。

通过重复提示采样评估大型语言模型安全性的可靠性差距

ArXiv CS.AI

这篇论文介绍了一种新的评估框架——加速提示压力测试（APST），用于深入评估大型语言模型（LLM）的安全性。传统的评估方法如HELM和AIR-BENCH主要通过广泛的任务评估模型的安全风险，但在实际应用中，模型在重复使用相同提示时可能会出现操作性故障。APST通过在控制条件下重复采样相同提示，揭示模型的潜在故障模式，如幻觉、拒绝不一致和不安全的完成。研究表明，不同温度下的重复采样揭示了模型在可靠性上的显著差异，这对模型在高风险环境中的应用具有重要意义。

🚀 模型发布

GLM-5.1

HuggingFace Models

GLM-5.1 是 Z.ai 推出的新一代旗舰模型，专注于代理工程，具有显著增强的编码能力。该模型在 SWE-Bench Pro 上达到了最先进的性能，并在 NL2Repo 和 Terminal-Bench 2.0 上大幅领先于前代 GLM-5。GLM-5.1 的主要突破在于其在长时间任务中的持续有效性，能够在数百轮和数千次工具调用中保持优化。该模型能够更好地处理模糊问题，进行实验、读取结果并识别阻碍因素，通过反复迭代优化策略来提高性能。GLM-5.1 支持多种开源框架的本地部署，如 SGLang、vLLM 和 Transformers，适用于多种编程和推理任务。

MiniMax-M2.7

HuggingFace Models

MiniMax-M2.7 是 MiniMaxAI 推出的首个深度参与自身进化的模型，具备构建复杂代理工具和完成高复杂度生产力任务的能力。该模型在 MLE Bench Lite 上达到了 66.6% 的奖牌率，仅次于 Opus-4.6 和 GPT-5.4。M2.7 在 SWE-Pro 上的表现与 GPT-5.3-Codex 相当，并在多语言 SWE Bench 和 VIBE-Pro 等基准测试中表现出色。该模型支持多代理协作，具有稳定的角色身份和自主决策能力，显著缩短了生产事件恢复时间。

🔄 工具更新

DeepReviewer 2.0：可追溯的科学同行评审代理系统

ArXiv CS.AI

DeepReviewer 2.0是一个面向科学同行评审的可追溯代理系统，旨在生成可审核的评审包。该系统通过构建手稿的声明-证据-风险账本和验证议程，提供锚定的批评和可执行的后续行动。在ICLR 2025的134篇投稿中，该系统的表现优于Gemini-3.1-Pro-preview，并在与人类评审委员会的盲比较中赢得了71.63%的微平均胜率。DeepReviewer 2.0被定位为辅助工具，而非决策代理。

📰 行业动态

📝 博客

📄 论文

🚀 模型发布

🔄 工具更新

🔥 全网热榜

微博热搜

知乎热榜

今日头条