AI 日报

2026年4月12日 · 星期日 · 第 12 期 · 34 条新闻

📰 行业动态

我们如何打破顶级AI代理基准:接下来是什么

Hacker News

研究团队开发了一种自动化扫描代理,能够在不解决任何任务的情况下,通过利用评分计算方式,获得几乎完美的分数。这一发现揭示了当前AI基准测试的漏洞,表明这些测试可能无法准确反映模型的实际能力。研究指出,许多基准测试的分数正在被操控,导致其失去意义。这一问题的解决需要重新评估和修复基准测试的设计,以确保其能够真正衡量AI模型的能力。

一位患有ALS的舞者如何使用脑电波进行现场表演

Hacker News

Dentsu Lab的Project Humanity开发了一个将肌肉信号和脑电波转化为数字表达的接口,并在2025年12月于阿姆斯特丹的现场舞台上展示。该项目通过电肌图传感器检测肌肉活动,并将其映射到数字化身上,使用户能够在虚拟空间中表达意图。此技术不仅为身体残疾人士提供了新的交互方式,还能用于多种软件的操作,扩展了人机交互的可能性。

小模型也发现了Mythos发现的漏洞

Hacker News

Anthropic的Mythos模型被用于发现和修补关键软件中的安全漏洞,但研究表明,小型、廉价的开源模型也能发现相同的漏洞。这表明AI在网络安全中的能力并不与模型大小成比例增长,而是依赖于系统的深度安全专业知识。虽然Mythos展示了AI在发现漏洞方面的潜力,但也指出了当前AI网络安全能力的局限性。

Rockstar Games被黑客攻击,黑客威胁如果不支付赎金将泄露大量数据

Hacker News

知名黑客组织ShinyHunters声称已入侵Rockstar Games的云服务器,并威胁如果不支付赎金,将在4月14日泄露大量数据。Rockstar确认此次数据泄露事件涉及非关键公司信息,并表示对公司和玩家无影响。黑客通过Anodot的安全漏洞获得了访问权限,而非直接攻破Snowflake的安全系统。目前尚不清楚黑客掌握了哪些具体数据。

📝 博客

扩展托管代理:将大脑与手分离

Anthropic Engineering

Anthropic Engineering介绍了其托管代理服务,该服务通过一组持久的接口运行长时间的代理任务。托管代理旨在解决如何为“尚未想到的程序”设计系统的问题,类似于操作系统将硬件虚拟化为抽象概念。该服务通过虚拟化代理的组件,如会话、工具调用循环和沙箱,提供了一种持久的解决方案,适应不断变化的实现方式。这种方法不仅提高了代理的灵活性,还为未来的工程工作流程定义了新的标准。

Claude Code自动模式:一种更安全的跳过权限的方法

Anthropic Engineering

Anthropic Engineering推出了Claude Code的自动模式,这是一种在不需要用户手动批准的情况下,自动处理命令的中间解决方案。该模式使用基于模型的分类器来捕捉不符合用户意图的危险操作,同时允许其他操作在没有批准提示的情况下运行。自动模式通过双层防御机制来保护用户输入和操作输出,旨在减少用户的批准疲劳,同时保持系统的安全性。

🚀 模型发布

Google发布Gemma 4 31B模型

HuggingFace Models

Google DeepMind发布了Gemma 4 31B模型,这是一款多模态模型,支持文本和图像输入,并生成文本输出。该模型具有256K的上下文窗口,并支持140多种语言。Gemma 4采用了Dense和Mixture-of-Experts (MoE)架构,适用于文本生成、编码和推理等任务。其多样化的尺寸使其能够在从高端手机到服务器的各种环境中部署,推动了AI的普及。Gemma 4在推理、扩展多模态性和增强编码能力方面实现了显著的能力和架构进步。

GLM-5.1模型发布

HuggingFace Models

GLM-5.1是新一代旗舰模型,专注于代理工程,具有显著增强的编码能力。该模型在SWE-Bench Pro上达到了最先进的性能,并在NL2Repo和Terminal-Bench 2.0上领先于GLM-5。GLM-5.1能够在更长时间内保持有效性,尤其在处理模糊问题时表现出更好的判断力。通过反复迭代,GLM-5.1能够在数百轮和数千次工具调用中持续优化,越长时间运行,结果越好。

🔄 工具更新

Claude Code v2.1.98

Claude Code Updates

Claude Code v2.1.98版本引入了多个新功能和修复。新增的Google Vertex AI设置向导简化了GCP认证和配置过程,并增加了多个环境变量和工具以增强脚本执行的安全性和灵活性。此外,修复了多个安全漏洞和性能问题,如Bash工具权限绕过和流响应超时问题。这些更新提高了Claude Code的安全性和用户体验,对开发者在多平台环境中的使用具有重要意义。

Claude Code v2.1.101版本更新

Claude Code Updates

Claude Code v2.1.101版本更新增加了多项功能,包括生成团队入职指南的命令、默认信任操作系统CA证书存储、自动创建云环境、改进的简洁模式和焦点模式等。此外,更新还修复了多个错误,提高了设置的弹性和插件钩子的执行效率。

OpenClaw 2026.4.11

OpenClaw Updates

OpenClaw 2026.4.11版本带来了多个重要更新,包括新增的ChatGPT导入功能和改进的文档评论会话,使得用户可以更便捷地管理和查看对话内容。此外,视频生成工具的增强支持了更高的图像输入上限和自适应宽高比,提升了视频生成的灵活性。Microsoft Teams和Feishu的集成也得到了改进,提供了更丰富的交互体验。这些更新显著提升了OpenClaw在多平台协作和内容管理方面的能力。

🔧 开源项目

NousResearch/hermes-agent

GitHub Trending

Nous Research推出了Hermes Agent,这是一个具有自我改进能力的AI代理。该代理能够通过内置的学习循环创建和改进技能,并在使用过程中持久化知识。Hermes Agent支持多种模型,包括Nous Portal、OpenRouter等,用户可以在不同的基础设施上运行,如VPS、GPU集群等。它提供了灵活的配置选项,允许用户在多种通信平台上与代理进行交互,如Telegram、Discord等。Hermes Agent的设计旨在提高AI代理的自主性和适应性,为用户提供更智能的交互体验。

microsoft/markitdown

GitHub Trending

Microsoft推出了MarkItDown,这是一个轻量级的Python工具,用于将各种文件转换为Markdown格式,以便与LLM和相关文本分析管道一起使用。MarkItDown支持多种文件格式的转换,包括PowerPoint、Word、Excel、HTML等,并专注于保留重要的文档结构和内容。该工具的设计目标是为文本分析工具提供结构化的输入,而不是高保真的人类消费文档转换。

Multica开源项目发布

GitHub Trending

Multica是一个开源的管理代理平台,旨在将编码代理转变为真正的团队成员。用户可以像分配给同事一样分配任务给代理,代理将自主完成工作、报告阻碍并更新状态。Multica支持Claude Code、Codex、OpenClaw和OpenCode,管理从任务分配到执行监控的完整代理生命周期,并支持技能复用和多工作区隔离。

Kronos开源项目发布

GitHub Trending

Kronos是首个针对金融K线图的开源基础模型,训练于45个全球交易所的数据。该模型采用解码器专用的架构,专为处理金融数据的高噪声特性而设计。Kronos使用两阶段框架:首先将连续的多维K线数据量化为层次离散标记,然后在这些标记上进行大规模自回归Transformer预训练,适用于多种定量任务。

OpenDataloader PDF解析器发布

GitHub Trending

OpenDataloader PDF是一个用于AI数据提取的开源PDF解析器,能够从任何PDF中提取Markdown、JSON和HTML。该工具在基准测试中排名第一,具有0.907的整体准确率和0.928的表格准确率,支持复杂页面的混合模式解析。内置OCR支持80多种语言,并能处理300 DPI以上的低质量扫描。