AI 日报

📰 行业动态

我们如何打破顶级AI代理基准：接下来是什么

Hacker News

研究团队开发了一种自动化扫描代理，能够在不解决任何任务的情况下，通过利用评分计算方式，获得几乎完美的分数。这一发现揭示了当前AI基准测试的漏洞，表明这些测试可能无法准确反映模型的实际能力。研究指出，许多基准测试的分数正在被操控，导致其失去意义。这一问题的解决需要重新评估和修复基准测试的设计，以确保其能够真正衡量AI模型的能力。

一位患有ALS的舞者如何使用脑电波进行现场表演

Hacker News

Dentsu Lab的Project Humanity开发了一个将肌肉信号和脑电波转化为数字表达的接口，并在2025年12月于阿姆斯特丹的现场舞台上展示。该项目通过电肌图传感器检测肌肉活动，并将其映射到数字化身上，使用户能够在虚拟空间中表达意图。此技术不仅为身体残疾人士提供了新的交互方式，还能用于多种软件的操作，扩展了人机交互的可能性。

小模型也发现了Mythos发现的漏洞

Hacker News

Anthropic的Mythos模型被用于发现和修补关键软件中的安全漏洞，但研究表明，小型、廉价的开源模型也能发现相同的漏洞。这表明AI在网络安全中的能力并不与模型大小成比例增长，而是依赖于系统的深度安全专业知识。虽然Mythos展示了AI在发现漏洞方面的潜力，但也指出了当前AI网络安全能力的局限性。

Rockstar Games被黑客攻击，黑客威胁如果不支付赎金将泄露大量数据

Hacker News

知名黑客组织ShinyHunters声称已入侵Rockstar Games的云服务器，并威胁如果不支付赎金，将在4月14日泄露大量数据。Rockstar确认此次数据泄露事件涉及非关键公司信息，并表示对公司和玩家无影响。黑客通过Anodot的安全漏洞获得了访问权限，而非直接攻破Snowflake的安全系统。目前尚不清楚黑客掌握了哪些具体数据。

📝 博客

扩展托管代理：将大脑与手分离

Anthropic Engineering

Anthropic Engineering介绍了其托管代理服务，该服务通过一组持久的接口运行长时间的代理任务。托管代理旨在解决如何为“尚未想到的程序”设计系统的问题，类似于操作系统将硬件虚拟化为抽象概念。该服务通过虚拟化代理的组件，如会话、工具调用循环和沙箱，提供了一种持久的解决方案，适应不断变化的实现方式。这种方法不仅提高了代理的灵活性，还为未来的工程工作流程定义了新的标准。

Claude Code自动模式：一种更安全的跳过权限的方法

Anthropic Engineering

Anthropic Engineering推出了Claude Code的自动模式，这是一种在不需要用户手动批准的情况下，自动处理命令的中间解决方案。该模式使用基于模型的分类器来捕捉不符合用户意图的危险操作，同时允许其他操作在没有批准提示的情况下运行。自动模式通过双层防御机制来保护用户输入和操作输出，旨在减少用户的批准疲劳，同时保持系统的安全性。

🚀 模型发布

Google DeepMind发布了Gemma 4 31B模型，这是一款多模态模型，支持文本和图像输入，并生成文本输出。该模型具有256K的上下文窗口，并支持140多种语言。Gemma 4采用了Dense和Mixture-of-Experts (MoE)架构，适用于文本生成、编码和推理等任务。其多样化的尺寸使其能够在从高端手机到服务器的各种环境中部署，推动了AI的普及。Gemma 4在推理、扩展多模态性和增强编码能力方面实现了显著的能力和架构进步。

GLM-5.1模型发布

HuggingFace Models

GLM-5.1是新一代旗舰模型，专注于代理工程，具有显著增强的编码能力。该模型在SWE-Bench Pro上达到了最先进的性能，并在NL2Repo和Terminal-Bench 2.0上领先于GLM-5。GLM-5.1能够在更长时间内保持有效性，尤其在处理模糊问题时表现出更好的判断力。通过反复迭代，GLM-5.1能够在数百轮和数千次工具调用中持续优化，越长时间运行，结果越好。

🔄 工具更新

Claude Code v2.1.98

Claude Code Updates

Claude Code v2.1.98版本引入了多个新功能和修复。新增的Google Vertex AI设置向导简化了GCP认证和配置过程，并增加了多个环境变量和工具以增强脚本执行的安全性和灵活性。此外，修复了多个安全漏洞和性能问题，如Bash工具权限绕过和流响应超时问题。这些更新提高了Claude Code的安全性和用户体验，对开发者在多平台环境中的使用具有重要意义。

Claude Code v2.1.101版本更新

Claude Code Updates

Claude Code v2.1.101版本更新增加了多项功能，包括生成团队入职指南的命令、默认信任操作系统CA证书存储、自动创建云环境、改进的简洁模式和焦点模式等。此外，更新还修复了多个错误，提高了设置的弹性和插件钩子的执行效率。

OpenClaw 2026.4.11

OpenClaw Updates

OpenClaw 2026.4.11版本带来了多个重要更新，包括新增的ChatGPT导入功能和改进的文档评论会话，使得用户可以更便捷地管理和查看对话内容。此外，视频生成工具的增强支持了更高的图像输入上限和自适应宽高比，提升了视频生成的灵活性。Microsoft Teams和Feishu的集成也得到了改进，提供了更丰富的交互体验。这些更新显著提升了OpenClaw在多平台协作和内容管理方面的能力。

🔧 开源项目

NousResearch/hermes-agent

GitHub Trending

Nous Research推出了Hermes Agent，这是一个具有自我改进能力的AI代理。该代理能够通过内置的学习循环创建和改进技能，并在使用过程中持久化知识。Hermes Agent支持多种模型，包括Nous Portal、OpenRouter等，用户可以在不同的基础设施上运行，如VPS、GPU集群等。它提供了灵活的配置选项，允许用户在多种通信平台上与代理进行交互，如Telegram、Discord等。Hermes Agent的设计旨在提高AI代理的自主性和适应性，为用户提供更智能的交互体验。

📰 行业动态

我们如何打破顶级AI代理基准：接下来是什么

一位患有ALS的舞者如何使用脑电波进行现场表演

小模型也发现了Mythos发现的漏洞

Rockstar Games被黑客攻击，黑客威胁如果不支付赎金将泄露大量数据

📝 博客

扩展托管代理：将大脑与手分离

Claude Code自动模式：一种更安全的跳过权限的方法

🚀 模型发布

Google发布Gemma 4 31B模型

GLM-5.1模型发布

🔄 工具更新

Claude Code v2.1.98

Claude Code v2.1.101版本更新

OpenClaw 2026.4.11

🔧 开源项目

NousResearch/hermes-agent

microsoft/markitdown

Multica开源项目发布

Kronos开源项目发布

OpenDataloader PDF解析器发布

📰 行业动态

📝 博客

🚀 模型发布

🔄 工具更新

🔧 开源项目

🔥 全网热榜

微博热搜

知乎热榜

今日头条