AI 日报

2026年4月29日 · 星期三 · 第 29 期 · 29 条新闻

📰 行业动态

谷歌与五角大楼据称达成协议,允许“任何合法”使用AI

Hacker News

谷歌与美国国防部达成了一项机密协议,允许后者将谷歌的AI模型用于“任何合法的政府用途”。这一协议是在谷歌员工要求CEO Sundar Pichai阻止五角大楼使用其AI后不久被报道的。协议不允许谷歌对政府如何使用其AI模型进行否决,这意味着谷歌对AI使用的限制可能仅仅是象征性的。此外,协议要求谷歌协助政府在需要时调整AI的安全设置和过滤器。这一协议将谷歌与OpenAI和xAI等公司置于同一阵营,而Anthropic因拒绝移除武器和监控相关限制而被五角大楼列入黑名单。这一事件引发了对AI技术在军事和政府用途中的伦理和安全问题的广泛关注。

ChatGPT如何投放广告

Hacker News

OpenAI的广告平台通过在ChatGPT对话中注入广告单元实现广告投放。广告单元通过结构化对象插入到对话流中,而在商家端,一个名为OAIQ的跟踪SDK在访问者的浏览器中运行,报告产品浏览情况。广告和商家之间通过Fernet加密的点击令牌连接。广告单元包括广告请求ID、广告商品牌信息、广告内容和目标链接等。广告内容通过OpenAI托管的服务器加载,确保广告的完整性和安全性。这种广告投放方式展示了AI在广告领域的应用潜力。

OpenAI模型将登陆Amazon Bedrock:与OpenAI和AWS CEO的访谈

Hacker News

OpenAI与AWS达成协议,允许OpenAI的模型在AWS的Bedrock平台上运行。这一变化使得OpenAI可以在多个云提供商上提供其产品,而不仅限于微软Azure。这一举措标志着OpenAI与微软之间协议的修订,微软仍将是OpenAI的主要云合作伙伴,但OpenAI现在可以在任何云提供商上提供其产品。此举有助于OpenAI扩大其市场覆盖面,同时继续与微软保持战略合作关系。

VibeVoice:开源前沿语音AI

Hacker News

VibeVoice是微软推出的开源语音AI框架,涵盖文本到语音(TTS)和自动语音识别(ASR)模型。VibeVoice-ASR支持60分钟长音频的单次处理,提供结构化转录,包括说话者、时间戳和内容。该模型支持50多种语言,并提供用户自定义上下文。VibeVoice-TTS支持多达90分钟的长文本语音合成,适用于多说话者场景。此项目旨在推动语音合成社区的协作,促进AI在语音技术领域的应用。

Claude.ai无法访问及API错误增加

Hacker News

Claude.ai平台及其相关服务在4月28日UTC时间17:34至18:52期间出现了访问问题和API认证错误。Anthropic公司已识别出问题并正在努力解决,影响范围包括Claude Console、Claude API、Claude Code、Claude Cowork和Claude for Government。公司表示目前服务成功率已恢复正常,并将密切监控以防止进一步问题。这一事件可能影响了依赖Claude服务的开发者和企业用户,凸显了云服务平台在稳定性和可靠性方面的挑战。

📝 博客

推出NVIDIA Nemotron 3 Nano Omni:长上下文多模态智能用于文档、音频和视频代理

HuggingFace Blog

NVIDIA推出了Nemotron 3 Nano Omni,这是一款新型全模态理解模型,旨在用于现实世界的文档分析、多图像推理、自动语音识别、长音视频理解、代理计算机使用和一般推理。该模型在复杂文档智能排行榜如MMlongbench-Doc、OCRBenchV2,以及视频和音频排行榜如WorldSense和DailyOmni上表现出色。它结合了Nemotron 3混合Mamba-Transformer专家混合骨干、C-RADIOv4-H视觉编码器和Parakeet-TDT-0.6B-v2音频编码器,能够保持细致的视觉细节,增加本地音频理解,并扩展到非常长的多模态上下文。Nemotron 3 Nano Omni在多模态用例中提供了高达9倍的吞吐量和2.9倍的单流推理速度,相较于其他替代方案。

Claude Code自动模式:一种更安全的跳过权限方法

Anthropic Engineering

Claude Code推出了一种新的自动模式,旨在减少用户在执行命令或修改文件时的批准疲劳。传统的手动批准模式虽然安全,但繁琐,而完全跳过权限的模式则存在安全隐患。自动模式通过模型分类器来判断哪些操作需要用户批准,哪些可以自动执行,从而在安全性和便利性之间取得平衡。此模式通过输入层的探测和行动层的监控,确保危险操作不会在未授权的情况下执行。

📄 论文

基于多保真数字孪生和FMEA知识增强的通用航空飞机智能故障诊断方法

ArXiv CS.AI

该论文提出了一种智能故障诊断框架,专注于通用航空飞机的故障诊断。该框架结合了多保真数字孪生技术,集成了高保真飞行动力学模拟、FMEA驱动的故障注入、多保真残差特征提取和大语言模型增强的可解释报告生成。通过JSBSim六自由度飞行动力学引擎构建数字孪生体,生成23通道的发动机健康监测数据。实验表明,该方法在20类故障任务上实现了96.2%的Macro-F1分数,并在推理加速方面达到了4.3倍的提升,性能损失仅为0.6%。该研究强调了残差特征质量对诊断性能的贡献远超分类器架构,确立了“残差质量优先”的设计原则。

LEGO:基于LLM技能的前端设计生成平台

ArXiv CS.AI

LEGO 是一个用于前端设计生成的统一技能平台,旨在解决现有 LLM 基于 EDA 代理的孤立任务特定系统问题。该平台将数字前端流程分解为六个独立步骤,并将每个代理能力表示为可组合的电路技能。通过调查 100 多篇论文和 11 个代表性开源项目,LEGO 提取了 42 种可执行电路技能。实验证明,在 VerilogEval v2 问题集上,LEGO 提升了 Pass@1 从 0.000 到 0.805,相比基线提高了 80.5%。这些结果表明,模块化技能组合支持有效且灵活的 RTL 设计自动化。LEGO 平台及所有电路技能在 GitHub 上公开。

🚀 模型发布

DeepSeek-V4-Pro 发布

HuggingFace Models

DeepSeek-V4-Pro 是一款具备 1.6 万亿参数(激活 49B)的 Mixture-of-Experts (MoE) 语言模型,支持百万级别的上下文长度。该模型采用混合注意力机制,结合了压缩稀疏注意力(CSA)和重压缩注意力(HCA),在长上下文效率上有显著提升。在 1M-token 上下文设置中,DeepSeek-V4-Pro 仅需 DeepSeek-V3.2 的 27% 的单 token 推理 FLOPs 和 10% 的 KV 缓存。它还引入了流形约束超连接(mHC)以增强信号传播的稳定性。使用 Muon 优化器加速收敛和提高训练稳定性。模型在 32T 高质量 token 上进行了预训练,并通过独立培养领域专家和统一模型整合的两阶段后训练流程,整合了不同领域的专业知识。DeepSeek-V4-Pro-Max 在开放源代码模型中表现出色,在推理和代理任务上显著缩小了与闭源模型的差距。

Qwen3.6-27B 发布

HuggingFace Models

Qwen3.6-27B 是一款因应社区反馈而开发的开放权重模型,旨在提高稳定性和实际应用效用。该模型在代理编码和推理保留方面有显著升级,能够更流畅地处理前端工作流和代码库级别的推理。模型采用因果语言模型结构,具备视觉编码器,拥有 27B 参数和 64 层隐藏层。其上下文长度原生支持 262,144 tokens,并可扩展至 1,010,000 tokens。Qwen3.6 的发布为开发者提供了更直观、响应迅速的编码体验,尤其在处理复杂的代码和推理任务时表现出色。