玻璃翼计划:为AI时代的关键软件保驾护航
玻璃翼计划是一个由多家科技巨头联合发起的项目,旨在利用Anthropic开发的Claude Mythos模型来提升全球关键软件的安全性。该模型在发现和利用软件漏洞方面表现出色,能够超越大多数人类专家。项目参与者包括亚马逊、苹果、谷歌、微软等公司,他们将利用Mythos模型进行防御性安全工作。Anthropic承诺提供高达1亿美元的使用额度,并向开源安全组织捐赠400万美元。此举标志着AI在网络安全领域的重大进展,可能对经济和国家安全产生深远影响。
玻璃翼计划是一个由多家科技巨头联合发起的项目,旨在利用Anthropic开发的Claude Mythos模型来提升全球关键软件的安全性。该模型在发现和利用软件漏洞方面表现出色,能够超越大多数人类专家。项目参与者包括亚马逊、苹果、谷歌、微软等公司,他们将利用Mythos模型进行防御性安全工作。Anthropic承诺提供高达1亿美元的使用额度,并向开源安全组织捐赠400万美元。此举标志着AI在网络安全领域的重大进展,可能对经济和国家安全产生深远影响。
Claude Mythos Preview是一个通用语言模型,在网络安全任务中表现出色。该模型能够发现和利用开源代码中的零日漏洞,并能逆向工程封闭源软件的漏洞。Anthropic启动了玻璃翼计划,利用该模型帮助保护全球关键软件,并为行业准备应对未来的网络攻击。尽管模型发现的99%以上的漏洞尚未修补,但其能力已被视为网络安全领域的里程碑,促使行业开始协调努力以加强网络防御。
在代理编码评估中,基础设施配置对基准测试结果的影响可能超过模型之间的性能差距。在Terminal-Bench 2.0的内部实验中,不同资源配置的差距达到6个百分点。尽管最新版本已指定每项任务的CPU和RAM推荐配置,但执行方法的差异仍可能改变基准测试的实际测量结果。这一发现对模型选择和部署决策具有重要影响,表明在评估模型能力时,基础设施配置是不可忽视的因素。
研究人员Nicholas Carlini使用16个Claude实例并行工作,成功开发出一个基于Rust的C编译器,能够编译Linux内核。该项目展示了多代理团队在无需人类干预的情况下进行复杂任务的潜力,强调了设计长时间自主代理团队的关键技术,如测试编写和任务结构化。此方法扩展了LLM代理的应用范围,表明在长时间和复杂任务中,代理团队可以显著提高效率和产出。
IC3-Evolve是一种自动化的离线代码进化框架,利用大语言模型(LLM)对IC3硬件安全模型检查算法进行小规模、可审计的补丁提议。该框架通过证明/见证门控验证来确保每个候选补丁的正确性,避免不可靠的编辑被部署。IC3-Evolve在公共硬件模型检查竞赛(HWMCC)基准上进行进化,并在未见过的公共和工业模型检查基准上评估其普适性,显示出在严格的正确性门控下能够可靠地发现实用的启发式改进。这一方法的意义在于,它能够在不增加运行时模型依赖的情况下,提升IC3的性能,降低手动调优的成本和难度。
研究提出了一种名为STORM的多模态基础模型,结合了空间转录组学和组织学数据,通过整合形态特征、基因表达和空间信息,提升了生物组织图谱的发现能力。该模型在11种肿瘤类型的H&E图像中预测空间基因表达方面表现优异,并在免疫治疗反应预测和预后评估中显著优于现有生物标志物。STORM适用于多种平台,提供了一种可扩展的框架,有助于空间信息驱动的生物学发现和临床精准医学。
Google DeepMind推出了Gemma 4系列模型,其中包括多模态处理能力,支持文本和图像输入,并生成文本输出。Gemma 4模型具有256K的上下文窗口,并支持超过140种语言。该系列模型采用了密集和专家混合(MoE)架构,适用于文本生成、编码和推理等任务。Gemma 4的多样化尺寸使其可以在从高端手机到笔记本电脑和服务器的各种环境中部署,推动了最先进AI的普及。该模型还引入了原生系统提示支持,增强了编码和自主代理功能。
GLM-5.1是Z.ai推出的下一代旗舰模型,专注于代理工程,具备比前代更强的编码能力。该模型在SWE-Bench Pro上达到了业界领先的表现,并在NL2Repo和Terminal-Bench 2.0等基准测试中显著超越了GLM-5。GLM-5.1能够在更长时间内保持高效,尤其在处理模糊问题时表现出更好的判断力。它能够分解复杂问题、进行实验、读取结果并精准识别障碍,通过反复迭代优化策略,能够在数百轮和数千次工具调用中持续优化。该模型支持本地部署,兼容多种开源框架,如SGLang、vLLM、xLLM、Transformers和KTransformers。
Claude Code推出了一种新的自动模式,利用模型分类器在不需要用户批准的情况下运行命令。这种模式在输入和输出层提供双重防护,旨在捕捉不符合用户意图的危险操作,同时允许其他操作无需批准。此更新旨在减少用户的批准疲劳,并提高操作的安全性和效率。通过这种方式,Claude Code在保持用户安全的同时,简化了操作流程。
Google AI Edge推出了Gallery平台,允许用户在移动设备上运行强大的开源大型语言模型(LLMs)。最新版本支持Gemma 4系列,用户可以在设备上离线体验高性能生成式AI。平台提供多种功能,包括Agent Skills、AI Chat、Ask Image、Audio Scribe等,支持多模态交互和实时语音转录。Gallery平台旨在通过本地执行提供隐私保护和快速响应的AI体验。
LiteRT-LM是Google推出的高性能开源推理框架,专为在边缘设备上部署大型语言模型(LLMs)而设计。该框架支持跨平台部署,包括Android、iOS、Web、桌面和物联网设备,并提供GPU和NPU加速。LiteRT-LM支持多模态输入,适用于视觉和音频数据处理。用户可以通过命令行界面(CLI)在Linux、macOS、Windows和Raspberry Pi上试用Gemma 4模型。
PersonaPlex是NVIDIA推出的实时全双工语音对话模型,支持通过文本角色提示和音频条件进行角色控制。该模型基于Moshi架构,能够生成自然、低延迟的语音交互。用户可以通过Huggingface账户获取模型并在本地运行,支持CPU卸载以节省GPU内存。