利用最突出的AI代理基准测试
研究人员开发了一种自动化扫描代理,能够系统性地审计八个最突出的AI代理基准测试,包括SWE-bench、WebArena等,发现每个基准都可以被利用以实现接近完美的分数,而无需解决任何实际任务。这些攻击并非理论上的,代理能够构建有效的漏洞利用程序并通过官方评估管道运行,导致分数虚高。这表明当前的基准测试可能并不可靠,可能被用于夸大模型能力。此发现对AI领域的基准测试可靠性提出了质疑,可能影响投资者决策和工程师的模型选择。
研究人员开发了一种自动化扫描代理,能够系统性地审计八个最突出的AI代理基准测试,包括SWE-bench、WebArena等,发现每个基准都可以被利用以实现接近完美的分数,而无需解决任何实际任务。这些攻击并非理论上的,代理能够构建有效的漏洞利用程序并通过官方评估管道运行,导致分数虚高。这表明当前的基准测试可能并不可靠,可能被用于夸大模型能力。此发现对AI领域的基准测试可靠性提出了质疑,可能影响投资者决策和工程师的模型选择。
Meta正在开发一个AI版的马克·扎克伯格,以便与员工互动。这个项目是Meta重塑公司以适应AI技术的更广泛努力的一部分。公司正在开发逼真的AI驱动3D角色,扎克伯格AI角色被优先开发。该角色将基于扎克伯格的习惯、语调和公开声明进行训练,以便员工通过与其互动更好地连接创始人。这一努力与扎克伯格计划开发的“CEO代理”项目分开,后者旨在支持其角色。Meta还发布了Muse Spark,一个小型封闭的模型,具备健康推理和视觉理解等高级能力。
2025年,AI模型在国际数学奥林匹克竞赛中解决了六个问题中的五个,这标志着AI在数学领域的显著进步。虽然这些问题是已知答案的挑战性谜题,但AI模型的成功引起了数学界的广泛关注。数学家们开始利用AI来发现和证明新结果,显著加快了研究进程。AI的应用不仅限于解题,还包括提出和验证新的数学猜想,这一趋势正在改变数学研究的方式。著名数学家陶哲轩指出,AI在数学中的应用将继续扩展,推动领域内的创新。
开发者的实验表明,Anthropic可能在Claude Code请求中无声地注入了数千个令牌,导致用户的使用限制迅速消耗。用户报告称,即使在每月200美元的计划下,使用限制也在数小时内耗尽。调查发现,从v2.1.100版本开始,每个请求似乎携带了约20,000个额外的令牌,这些令牌并未由用户发送。此问题尚未在大规模上独立验证,Anthropic也未对此发表评论。这一发现引发了社区对v2.1.100版本中引入的会话记忆功能的猜测。
Cloudflare 将 OpenAI 的 GPT-5.4 和 Codex 引入其 Agent Cloud 平台,使企业能够快速、安全地构建、部署和扩展 AI 代理以执行实际任务。这一集成为企业提供了更高效的自动化解决方案,提升了工作流的智能化水平。通过利用 OpenAI 的先进模型,企业可以在不牺牲安全性的情况下实现更高的生产力和创新能力。这一合作展示了 AI 技术在企业级应用中的潜力,可能会对行业标准和企业运营方式产生深远影响。
在代理编码评估中,基础设施配置可能导致基准测试分数波动几个百分点,甚至超过顶级模型之间的差距。在内部实验中,Terminal-Bench 2.0 的最优和最差资源配置之间的差距达到了6个百分点。这表明,基础设施的配置和执行方法对评估结果有显著影响。为了解决这一问题,开发者开始在评估中指定推荐的CPU和RAM配置,但这并不等同于一致的执行。此发现强调了在评估AI模型时,考虑基础设施因素的重要性,以确保结果的准确性和公平性。
Claude Code 推出了自动模式,通过模型驱动的分类器来管理权限批准,以减少用户的批准疲劳。该模式在输入和执行层面提供双重防御,旨在识别并阻止不符合用户意图的危险操作,同时允许其他操作在没有批准提示的情况下运行。这种方法通过减少人为干预,提升了工具的安全性和效率,特别是在开发和运维环境中,降低了误操作的风险。
OpenKedge是一种新协议,旨在解决自主AI代理在API架构中执行状态突变时缺乏安全保障的问题。该协议通过要求参与者提交声明性意图提案,并在执行前对其进行系统状态、时间信号和政策约束的评估,从而将突变重新定义为受治理的过程。批准的意图被编译成执行合同,严格限制允许的操作、资源范围和时间,并通过临时、任务导向的身份强制执行。OpenKedge引入了意图到执行的证据链(IEEC),加密地将意图、上下文、政策决策、执行边界和结果链接成一个统一的谱系,转变突变为可验证和可重建的过程。实验表明,该协议在多代理冲突场景和云基础设施突变中有效仲裁竞争意图并限制不安全执行,同时保持高吞吐量,为大规模安全操作代理系统建立了原则性基础。
Spatial-Gym是一个新的Gymnasium环境,用于评估模型在2D网格谜题中的路径规划能力。研究评估了八种模型在单次、一对一和带回溯的逐步决策任务中的表现,结果显示最优模型GPT-OSS 120B的解决率为16.0%,远低于人类基线的98.0%。研究发现,逐步格式有助于较弱模型减少格式错误,但限制了较强模型的全局规划能力。回溯提高了情节完成率,但仅对较弱模型有利。实验揭示了模型在应对任务难度时推理努力的不足,以及视觉模型在接收空间环境图像时解决率下降73%。Spatial-Gym为通过强化学习改进空间推理提供了诊断模型局限性的框架。
GLM-5.1是zai-org发布的下一代旗舰模型,专注于代理工程,具备显著增强的编码能力。该模型在SWE-Bench Pro上达到了最先进的性能,并在NL2Repo和Terminal-Bench 2.0上领先于GLM-5。GLM-5.1能够在更长时间内保持高效,特别是在处理模糊问题时表现出色。它能够分解复杂问题、运行实验、读取结果并识别障碍,通过反复迭代优化策略,能够在数百轮和数千次工具调用中持续优化。此模型支持本地部署,兼容多种开源框架,如SGLang、vLLM和Transformers。GLM-5.1的发布标志着在代理任务处理和长时间优化方面的重大进步。
Gemma 4是Google DeepMind推出的多模态模型家族,支持文本、图像输入(小模型支持音频),并生成文本输出。该版本包括预训练和指令微调的开放权重模型,支持多达256K个token的上下文窗口,并在140多种语言中保持多语言支持。Gemma 4采用密集和专家混合(MoE)架构,适用于文本生成、编码和推理等任务。其多样化的尺寸使其能够在从高端手机到笔记本电脑和服务器的环境中部署,推动最先进AI的普及。Gemma 4引入了关键的能力和架构进步,特别是在推理能力和多模态处理方面。
Hermes-agent是由Nous Research开发的自我改进AI代理,具备内置学习循环,能够从经验中创建和改进技能,并在使用中持续改进。它可以在各种平台上运行,包括VPS、GPU集群和无服务器基础设施。用户可以选择多种模型,并通过简单的命令切换,无需代码更改。Hermes-agent支持多种通信方式,如Telegram、Discord等,适合需要灵活性和可扩展性的开发者。
VerifAI是一个开源的生物医学问答专家系统,结合了检索增强生成(RAG)和后验声明验证机制。与标准RAG系统不同,VerifAI通过将生成的答案分解为原子声明并使用自然语言推理引擎验证其一致性,从而确保事实一致性。系统包括三个模块:优化的混合信息检索模块、引用感知的生成组件和检测幻觉的验证组件。评估结果表明,VerifAI显著减少了幻觉引用,并为每个声明提供了透明的可验证来源。该系统的代码、模型和数据集均已开源,以促进在高风险领域的可靠AI部署。
Kronos是首个开源的金融K线基础模型,基于来自45个全球交易所的数据进行训练。该模型采用一种新颖的两阶段框架:首先将连续的多维K线数据量化为离散的层次化令牌,然后在这些令牌上进行大规模自回归Transformer预训练。Kronos适用于处理金融数据的独特高噪声特性,并提供了多种预训练模型以适应不同的计算和应用需求。该项目为金融市场的量化任务提供了一个统一的模型。