AI辅助的同行评审:AAAI-26 AI评审试点
科学同行评审面临着提交量激增带来的压力,难以维持评审质量、一致性和及时性。最近的AI进展使得社区考虑在同行评审中使用AI,但关键问题是AI是否能在实际会议规模上生成技术上可靠的评审。本文报告了AI辅助同行评审的首次大规模现场部署:AAAI-26的每篇主轨提交都收到了一个由最先进系统生成的AI评审。该系统结合了前沿模型、工具使用和多阶段过程中的保障措施,在不到一天的时间内为22977篇完整评审论文生成了评审。对AAAI-26作者和程序委员会成员的大规模调查显示,参与者不仅发现AI评审有用,而且在技术准确性和研究建议等关键维度上更偏爱AI评审。我们还引入了一个新的基准,发现我们的系统在检测各种科学弱点方面显著优于简单的LLM生成的评审基线。这些结果表明,最先进的AI方法已经能够在会议规模上对科学同行评审做出有意义的贡献,为下一代人机协作评估研究开辟了道路。