AI 日报

📰 行业动态

玻璃翼计划：为AI时代的关键软件保驾护航

Hacker News

玻璃翼计划是一个由多家科技巨头联合发起的项目，旨在利用Anthropic开发的Claude Mythos模型来提升全球关键软件的安全性。该模型在发现和利用软件漏洞方面表现出色，能够超越大多数人类专家。项目参与者包括亚马逊、苹果、谷歌、微软等公司，他们将利用Mythos模型进行防御性安全工作。Anthropic承诺提供高达1亿美元的使用额度，并向开源安全组织捐赠400万美元。此举标志着AI在网络安全领域的重大进展，可能对经济和国家安全产生深远影响。

评估Claude Mythos Preview的网络安全能力

Hacker News

Claude Mythos Preview是一个通用语言模型，在网络安全任务中表现出色。该模型能够发现和利用开源代码中的零日漏洞，并能逆向工程封闭源软件的漏洞。Anthropic启动了玻璃翼计划，利用该模型帮助保护全球关键软件，并为行业准备应对未来的网络攻击。尽管模型发现的99%以上的漏洞尚未修补，但其能力已被视为网络安全领域的里程碑，促使行业开始协调努力以加强网络防御。

📝 博客

量化代理编码评估中的基础设施噪声

Anthropic Engineering

在代理编码评估中，基础设施配置对基准测试结果的影响可能超过模型之间的性能差距。在Terminal-Bench 2.0的内部实验中，不同资源配置的差距达到6个百分点。尽管最新版本已指定每项任务的CPU和RAM推荐配置，但执行方法的差异仍可能改变基准测试的实际测量结果。这一发现对模型选择和部署决策具有重要影响，表明在评估模型能力时，基础设施配置是不可忽视的因素。

使用并行Claude团队构建C编译器

Anthropic Engineering

研究人员Nicholas Carlini使用16个Claude实例并行工作，成功开发出一个基于Rust的C编译器，能够编译Linux内核。该项目展示了多代理团队在无需人类干预的情况下进行复杂任务的潜力，强调了设计长时间自主代理团队的关键技术，如测试编写和任务结构化。此方法扩展了LLM代理的应用范围，表明在长时间和复杂任务中，代理团队可以显著提高效率和产出。

📄 论文

IC3-Evolve：用于IC3硬件模型检查的证明/见证门控离线LLM驱动启发式进化

ArXiv CS.AI

IC3-Evolve是一种自动化的离线代码进化框架，利用大语言模型（LLM）对IC3硬件安全模型检查算法进行小规模、可审计的补丁提议。该框架通过证明/见证门控验证来确保每个候选补丁的正确性，避免不可靠的编辑被部署。IC3-Evolve在公共硬件模型检查竞赛（HWMCC）基准上进行进化，并在未见过的公共和工业模型检查基准上评估其普适性，显示出在严格的正确性门控下能够可靠地发现实用的启发式改进。这一方法的意义在于，它能够在不增加运行时模型依赖的情况下，提升IC3的性能，降低手动调优的成本和难度。

用于生物发现和临床预测的空间转录组学和组织学多模态基础模型

ArXiv CS.AI

研究提出了一种名为STORM的多模态基础模型，结合了空间转录组学和组织学数据，通过整合形态特征、基因表达和空间信息，提升了生物组织图谱的发现能力。该模型在11种肿瘤类型的H&E图像中预测空间基因表达方面表现优异，并在免疫治疗反应预测和预后评估中显著优于现有生物标志物。STORM适用于多种平台，提供了一种可扩展的框架，有助于空间信息驱动的生物学发现和临床精准医学。

🚀 模型发布

Google发布Gemma 4-31B-it模型

HuggingFace Models

Google DeepMind推出了Gemma 4系列模型，其中包括多模态处理能力，支持文本和图像输入，并生成文本输出。Gemma 4模型具有256K的上下文窗口，并支持超过140种语言。该系列模型采用了密集和专家混合（MoE）架构，适用于文本生成、编码和推理等任务。Gemma 4的多样化尺寸使其可以在从高端手机到笔记本电脑和服务器的各种环境中部署，推动了最先进AI的普及。该模型还引入了原生系统提示支持，增强了编码和自主代理功能。

zai-org/GLM-5.1

HuggingFace Models

GLM-5.1是Z.ai推出的下一代旗舰模型，专注于代理工程，具备比前代更强的编码能力。该模型在SWE-Bench Pro上达到了业界领先的表现，并在NL2Repo和Terminal-Bench 2.0等基准测试中显著超越了GLM-5。GLM-5.1能够在更长时间内保持高效，尤其在处理模糊问题时表现出更好的判断力。它能够分解复杂问题、进行实验、读取结果并精准识别障碍，通过反复迭代优化策略，能够在数百轮和数千次工具调用中持续优化。该模型支持本地部署，兼容多种开源框架，如SGLang、vLLM、xLLM、Transformers和KTransformers。

🔄 工具更新

Claude Code自动模式：更安全的跳过权限方式

Anthropic Engineering

Claude Code推出了一种新的自动模式，利用模型分类器在不需要用户批准的情况下运行命令。这种模式在输入和输出层提供双重防护，旨在捕捉不符合用户意图的危险操作，同时允许其他操作无需批准。此更新旨在减少用户的批准疲劳，并提高操作的安全性和效率。通过这种方式，Claude Code在保持用户安全的同时，简化了操作流程。

📰 行业动态

玻璃翼计划：为AI时代的关键软件保驾护航

评估Claude Mythos Preview的网络安全能力

📝 博客

量化代理编码评估中的基础设施噪声

使用并行Claude团队构建C编译器

📄 论文

IC3-Evolve：用于IC3硬件模型检查的证明/见证门控离线LLM驱动启发式进化

用于生物发现和临床预测的空间转录组学和组织学多模态基础模型

🚀 模型发布

Google发布Gemma 4-31B-it模型

zai-org/GLM-5.1

🔄 工具更新

Claude Code自动模式：更安全的跳过权限方式

🔧 开源项目

Google AI Edge推出Gallery平台

Google发布LiteRT-LM推理框架

NVIDIA发布PersonaPlex对话模型

📰 行业动态

📝 博客

📄 论文

🚀 模型发布

🔄 工具更新

🔧 开源项目

🔥 全网热榜

微博热搜

知乎热榜

今日头条