AI 日报

2026年4月9日 · 星期四 · 第 9 期 · 28 条新闻

📰 行业动态

玻璃翼计划:为AI时代保护关键软件

Hacker News

玻璃翼计划由亚马逊、Anthropic、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、NVIDIA和Palo Alto Networks联合发起,旨在利用AI技术保护全球关键软件。Anthropic开发的Claude Mythos2 Preview模型展示了超越大多数人类在发现和利用软件漏洞方面的能力。该模型已发现数千个高严重性漏洞,涵盖主要操作系统和网络浏览器。玻璃翼计划旨在将这些AI能力用于防御目的,合作伙伴将使用Mythos Preview进行安全防护工作。Anthropic承诺提供高达1亿美元的使用额度和400万美元的直接捐赠给开源安全组织,以支持这些努力。此计划标志着AI在网络安全领域的一个重要开端。

Claude托管代理

Hacker News

Claude推出了托管代理服务,这是一套可组合的API,用于大规模构建和部署云托管代理。此服务简化了从原型到产品发布的过程,将开发周期从几个月缩短到几天。托管代理提供了生产级别的安全沙箱、身份验证和工具执行功能,支持长时间运行的会话和多代理协调。用户只需定义任务和工具,Claude的基础设施将负责执行。这一服务特别为Claude模型优化,旨在提高代理的性能和效率,使开发者能专注于用户体验而非操作复杂性。

Muse Spark:迈向个人超级智能的扩展

Hacker News

Meta超级智能实验室推出了Muse Spark,这是Muse系列模型中的首个产品,支持工具使用、视觉思维链和多代理编排。Muse Spark在多模态感知、推理、健康和代理任务中表现出色,并在长视野代理系统和编码工作流方面继续投资。该模型的“沉思模式”使其能够与前沿模型竞争,显著提高复杂任务的能力。Muse Spark的发布标志着Meta在个人超级智能领域的一个重要里程碑,展示了其在多模态推理和代理任务中的潜力。

📝 博客

企业AI的下一个阶段

OpenAI Blog

OpenAI概述了企业AI的下一个阶段,随着Frontier、ChatGPT Enterprise、Codex和公司级AI代理的采用加速,AI在各行业的应用正在迅速扩展。这一阶段的重点是通过这些工具和平台提升企业的生产力和创新能力,推动AI在商业环境中的深度整合。OpenAI的战略旨在通过提供更强大的AI工具来支持企业的数字化转型和智能化发展。

ALTK‑Evolve:AI代理的在职学习

HuggingFace Blog

ALTK‑Evolve是一种新的AI代理学习方法,通过将原始代理轨迹转化为可重用的指导原则,解决了AI代理重复错误和无法将经验教训应用于新情况的问题。在基准测试中,这种方法显著提高了复杂多步任务的可靠性,尤其是在AppWorld中提升了14.2%。ALTK‑Evolve通过长时记忆子系统帮助代理从经验中提取原则,并在新任务中应用这些原则,而不仅仅是重复过去的记录。这种学习系统为AI代理在动态环境中的适应能力提供了新的可能性。

📄 论文

Pramana:通过Navya-Nyaya微调大型语言模型以进行认识论推理

ArXiv CS.AI

Pramana是一种新方法,通过微调大型语言模型(LLM)以增强其认识论推理能力。该方法基于Navya-Nyaya逻辑,这是一种已有2500年历史的印度推理框架。Pramana通过六阶段推理过程(包括疑问分析、证据来源识别、五成员三段论、反事实验证、谬误检测和知识确认)来强化LLM的推理能力。实验表明,经过微调的Llama 3.2-3B和DeepSeek-R1-Distill-Llama-8B在逻辑问题上的语义正确率达到100%,尽管只有40%的格式严格遵循。这表明模型即使在结构不完美的情况下也能内化推理内容。所有模型、数据集和训练基础设施都在Hugging Face上发布,以促进AI推理的进一步研究。

RAG还是学习?理解现实世界中LLM适应的极限

ArXiv CS.CL

大语言模型(LLMs)在预训练过程中获取了大部分知识,这使得它们难以适应不断演变的知识。随着事实、实体和事件的变化,模型可能会经历持续的知识漂移,导致预测过时和推理不一致。现有的方法如持续微调、知识编辑和检索增强生成(RAG)在反映真实世界知识演变的环境中很少被评估。本文引入了一个新的基准,基于时间戳证据构建的真实世界动态事件,用于系统评估模型在持续知识漂移下的适应能力。研究表明,大多数现有方法在这种环境下表现不佳,暴露出灾难性遗忘和时间不一致等关键限制。为此,提出了一种时间感知检索基线Chronos,通过逐步组织检索到的证据形成事件演变图,以实现LLMs中更一致的时间理解,而无需额外训练。本研究为分析和推进LLM在现实环境中适应持续知识漂移提供了基础。

🚀 模型发布

openbmb/VoxCPM2

HuggingFace Models

VoxCPM2 是一个无标记、扩散自回归的文本到语音模型,拥有2B参数,支持30种语言,输出48kHz音频。该模型无需语言标签,直接支持多语言文本输入,能够根据自然语言描述生成新颖的声音(如性别、年龄、语调、情感、速度等),无需参考音频。VoxCPM2 还支持从短音频片段中克隆声音,并可通过样式指导控制情感、速度和表达,同时保留音色。其48kHz的工作室质量输出通过内置的AudioVAE V2实现,无需外部上采样器。该模型还具备上下文感知合成能力,自动从文本内容中推断适当的韵律和表现力。VoxCPM2 是完全开源的,并可免费用于商业用途。

MedGemma 1.5 技术报告

ArXiv CS.AI

MedGemma 1.5是MedGemma系列的最新模型,集成了高维医疗成像、解剖定位、多时间点胸部X光分析和改进的医疗文档理解能力。与MedGemma 1相比,MedGemma 1.5在3D MRI和CT条件分类上分别提高了11%和3%的准确性,在全片病理成像中宏观F1得分提高了47%。此外,它在胸部X光的解剖定位上提高了35%的交并比,并在多时间点胸部X光分析中实现了4%的宏观准确性。MedGemma 1.5还在文本基础的临床知识和推理上有所改进,在MedQA和EHRQA准确性上分别提高了5%和22%。该模型作为一个开放资源,为开发下一代医疗AI系统提供了坚实的基础。

🔧 开源项目

Google AI Edge Gallery

GitHub Trending

Google AI Edge Gallery是一个用于在移动设备上运行开源大型语言模型(LLMs)的平台,提供离线、高性能的生成式AI体验。最新版本引入了Gemma 4系列,支持高级推理和创造能力。用户可以通过该平台体验设备上的AI功能,包括多模态交互、实时语音转录和翻译、以及离线设备控制等。该平台旨在提供私密且快速的AI体验,适用于没有Google Play访问权限的用户。