为模拟真实编辑场景并系统评估学术海报自动编辑能力,团队通过参考导向与无参考优化两种方式构建了首个学术海报编辑基准测试APEX-Bench,该基准覆盖 59 篇 ICLR、ICML、NeurIPS 顶级会议论文,对应514条具有4种难度梯度的编辑指令,涵盖文本内容修改、风格调整、图像编辑与布局重构等多种操作类型。