AI 日报

2026年4月17日 · 星期五 · 第 17 期 · 30 条新闻

📰 行业动态

AI辅助的同行评审:AAAI-26 AI评审试点

ArXiv CS.AI

科学同行评审面临着提交量激增带来的压力,难以维持评审质量、一致性和及时性。最近的AI进展使得社区考虑在同行评审中使用AI,但关键问题是AI是否能在实际会议规模上生成技术上可靠的评审。本文报告了AI辅助同行评审的首次大规模现场部署:AAAI-26的每篇主轨提交都收到了一个由最先进系统生成的AI评审。该系统结合了前沿模型、工具使用和多阶段过程中的保障措施,在不到一天的时间内为22977篇完整评审论文生成了评审。对AAAI-26作者和程序委员会成员的大规模调查显示,参与者不仅发现AI评审有用,而且在技术准确性和研究建议等关键维度上更偏爱AI评审。我们还引入了一个新的基准,发现我们的系统在检测各种科学弱点方面显著优于简单的LLM生成的评审基线。这些结果表明,最先进的AI方法已经能够在会议规模上对科学同行评审做出有意义的贡献,为下一代人机协作评估研究开辟了道路。

新解密记录揭示亚马逊的价格操纵策略,加州总检察长声称

Hacker News

加州总检察长Rob Bonta指控亚马逊通过施压独立卖家提高在竞争对手平台上的价格,从而在价格上占据优势。新解密的文件包括内部邮件、证词和公司演示文稿,揭示了亚马逊如何利用自动化工具监控和调整价格策略,以确保其平台上的价格最低。亚马逊否认这些指控,称其价格策略旨在保护消费者利益。此案件将在2027年1月开庭审理,可能对电子商务平台的定价策略产生深远影响。

扩展管理代理:将大脑与双手分离

Anthropic Engineering

Anthropic介绍了Managed Agents,这是Claude平台上的托管服务,旨在运行长时间的代理任务。该服务通过一组持久接口运行,能够适应模型的不断改进。Managed Agents通过将代理的组件虚拟化,解决了“未想出的程序”的设计问题,使得系统可以在硬件变化的情况下保持稳定。此举为开发者提供了一个灵活的环境来构建和运行复杂的AI应用。

📄 论文

TREX:通过代理驱动的树形探索自动化大语言模型微调

ArXiv CS.AI

TREX是一个多代理系统,旨在自动化大语言模型(LLM)训练的整个生命周期。系统通过协调两个核心模块——研究员和执行者,进行需求分析、开放域文献和数据研究、训练策略制定、数据准备以及模型训练和评估。TREX以搜索树的形式建模多轮实验过程,实现高效的探索路径规划和历史结果重用。为评估自动化LLM训练的能力,研究者构建了FT-Bench基准,包含10个源于现实场景的任务。实验结果表明,TREX代理在目标任务上持续优化模型性能。这一系统的开发为自动化复杂的真实世界工作流程提供了新的可能性。

通过字典编码和上下文学习实现无损提示压缩:支持大规模重复数据的成本效益分析

ArXiv CS.CL

本文介绍了一种无损提示压缩方法,通过字典编码和上下文学习来优化大型语言模型(LLM)的分析效率。该方法无需对模型进行微调,通过将频繁出现的子序列替换为紧凑的元标记,并在系统提示中提供压缩字典,使LLM能够正确解释这些元标记。压缩算法识别多尺度的重复模式,并通过令牌节省优化标准确保压缩成本效益。实验表明,在LogHub 2.0基准测试中,使用Claude 3.7 Sonnet进行的压缩在模板压缩中达到超过0.99的精确匹配率,在算法压缩中达到超过0.91的平均Levenshtein相似度分数,即使在60%-80%的压缩率下。该方法适用于API驱动的LLM,直接解决了令牌限制和API成本问题,使得大规模重复数据集的分析更加经济高效。

🚀 模型发布

Google Gemma 4 31B 模型发布

HuggingFace Models

Gemma 4 是由 Google DeepMind 开发的多模态模型家族,支持文本和图像输入,并生成文本输出。此次发布的 Gemma 4 具有高达 256K 的上下文窗口,并支持 140 多种语言。模型采用密集和专家混合(MoE)架构,适用于文本生成、编码和推理等任务。Gemma 4 提供四种不同大小的模型,适合从高端手机到服务器的各种环境部署,推动最先进 AI 的普及。该模型在推理、扩展多模态性、优化设备本地执行和增强编码与代理能力方面进行了显著改进。

Claude Opus 4.7

Hacker News

Anthropic发布了最新的Claude Opus 4.7模型,相较于Opus 4.6在高级软件工程任务上有显著提升,尤其是在复杂和长时间运行的任务中表现出色。Opus 4.7不仅能更好地处理图像,还能在完成专业任务时展现出更高的创造力和品味。该模型在多个基准测试中表现优于Opus 4.6。为了提升网络安全,Opus 4.7引入了自动检测和阻止高风险网络安全用途的功能。该模型现已在所有Claude产品和API中可用,并支持Amazon Bedrock、Google Cloud的Vertex AI和Microsoft Foundry等平台。

🔄 工具更新

Cloudflare的AI平台:为代理设计的推理层

Hacker News

Cloudflare推出了一种新的AI推理层,旨在为代理提供服务。该平台允许用户通过一个统一的API访问来自任何提供商的AI模型,简化了从一个模型切换到另一个模型的过程。此更新包括自动重试上游故障、更细粒度的日志控制以及零设置默认网关等功能。通过这一平台,开发者可以更有效地管理成本、确保可靠性,并在全球范围内优化延迟。这一工具的推出标志着Cloudflare在AI应用开发领域的进一步扩展,为开发者提供了更高效的AI模型集成和管理方式。

claude-code v2.1.111

Claude Code Updates

Claude Code v2.1.111版本引入了多项新功能和改进。Opus 4.7 xhigh模式现已可用,用户可以通过/effort命令调整速度与智能之间的平衡。新增的Auto模式允许Max订阅用户在使用Opus 4.7时自动调整设置。新增的/ultrareview命令可以在云端进行全面的代码审查,支持并行多代理分析。Windows用户可以选择使用PowerShell工具,而Linux和macOS用户则需手动启用。其他改进包括更好的命令建议、改进的主题选项以及更智能的权限提示。这些更新提升了工具的灵活性和用户体验,对开发者的日常工作有显著帮助。

Codex几乎无所不能

OpenAI Blog

OpenAI更新了Codex应用程序,适用于macOS和Windows系统。此次更新增加了计算机使用、应用内浏览、图像生成、内存和插件功能,旨在加速开发者的工作流程。通过这些新增功能,Codex能够更好地支持开发者在不同环境下的编程需求,提高工作效率。

🔧 开源项目

EVE:用于地球智能的领域特定LLM框架

ArXiv CS.CL

EVE(Earth Virtual Expert)是首个为地球智能开发和部署领域专用大型语言模型(LLM)的开源端到端框架。其核心是EVE-Instruct,一个基于Mistral Small 3.2构建的24B模型,经过优化以进行推理和问答。在新构建的地球观测和地球科学基准测试中,EVE-Instruct在保持一般能力的同时优于同类模型。EVE集成了RAG和幻觉检测管道,支持通过API和GUI的生产系统,已有350名试点用户使用。所有模型、数据集和代码将在huggingface.co/eve-esa和github.com/eve-esa上以开放许可证发布,作为对该领域的贡献。

Google 发布 Magika 文件类型检测工具

GitHub Trending

Magika 是 Google 推出的新型 AI 驱动的文件类型检测工具,利用深度学习的最新进展实现高精度检测。该工具使用自定义优化模型,大小仅为几 MB,能够在毫秒内准确识别文件类型,即使在单个 CPU 上运行。Magika 在 200 多种内容类型的 1 亿个样本数据集上进行训练和评估,测试集上平均准确率达 99%。该工具已在 Gmail、Drive 和 Safe Browsing 中大规模使用,每周处理数千亿个样本。