北京大学与谷歌云AI研究团队联合推出PaperBanana:AI代理框架自动生成顶级学术插图,解放AI研究者画图地狱
2026-02-03 13:41
372
2026年1月30日,北京大学(PKU)与Google Cloud AI Research合作的研究团队正式发布并开源了PaperBanana项目。这是一个专为AI/ML科学家设计的agentic(代理式)框架,能够自动化生成出版级(NeurIPS/ICLR/CVPR水准)的学术插图,包括方法论流程图、神经网络架构图、消融实验统计图、曲线对比图等。

项目一经推出,便在AI学术圈迅速走红,被戏称为“论文画图救星”“从此告别TikZ和PowerPoint炼狱”。PaperBanana的核心目标直击痛点:尽管大语言模型驱动的自主AI科学家已快速发展,但高质量、可出版的学术可视化仍是研究流程中最耗时、最痛苦的环节。传统方式依赖手动绘制或专业绘图软件,效率低下且容易出错。
PaperBanana通过多代理协作+自我迭代机制,让AI“像人类研究员一样”完成从idea到成品的全流程。
核心工作流程(模仿人类绘图习惯)
- Retrieve(检索参考):从海量学术论文中智能搜集相似风格/内容的参考图
- Plan(内容与布局规划):分析输入的科学描述,规划图表结构、元素位置、标注方式
- Style(风格统一):决定学术风(简洁黑白、科技蓝调、彩色对比等),确保符合顶级会议模板
- Render(渲染生成):调用当前最强视觉语言模型(VLMs)+图像生成模型绘制
- Critique & Refine(自我批评迭代):内置Critic代理审视输出,检查准确性、美观度、忠实度,反复优化直到出版级
支持两大类高频输出:
- 方法论示意图:神经网络结构、训练pipeline、注意力机制、Agent架构等
- 统计可视化:柱状图、折线图、热力图、箱线图、t-SNE散点等实验结果图
特别亮点——Polishing Mode:用户上传手绘草图、旧版低质图或PDF截图,PaperBanana能“智能美化重绘”,直接输出专业出版版本。
基准与性能
研究团队自建PaperBananaBench基准,包含292个从NeurIPS 2025真实论文中提取的测试案例,覆盖多领域、多风格。PaperBanana在faithfulness(内容忠实度)、conciseness(简洁性)、readability(可读性)、aesthetics(美观度)四个维度全面超越当时主流基线,整体得分达60.2,并在统计图表类别接近人类专家水平。
技术亮点
- 底层驱动:当前SOTA视觉语言模型(VLMs) + 图像生成模型(疑似集成Imagen系列或同级)
- 多代理系统:Retriever、Planner、Stylist、Visualizer、Critic五个专用代理协作
- 参考驱动+自我反思循环,确保学术准确性不“幻觉”
开源与获取方式
- 项目主页:https://dwzhu-pku.github.io/PaperBanana (含大量炫酷生成示例)
- arXiv论文:https://arxiv.org/abs/2601.23265 (2026年1月30日提交)
- GitHub:https://github.com/dwzhu-pku/PaperBanana (代码与数据集正在逐步开源中,预计2周内完整可用)
- 作者团队:Dawei Zhu(北大在读博士,现Google Cloud student researcher)等
PaperBanana 用代理式AI彻底解放了AI研究者的画图负担,让“描述→顶级会议级插图”变成几分钟的事。 如果你正在赶NeurIPS deadline、写多模态/Agent/RAG论文,这可能是2026年初最实用的学术生产力工具。
0
好文章,需要你的鼓励
