Command Palette

Search for a command to run...

1 个月前

Paper2Video:从科学论文自动生成视频

Zeyu Zhu Kevin Qinghong Lin Mike Zheng Shou

Paper2Video:从科学论文自动生成视频

摘要

学术演示视频已成为科研交流的重要媒介,然而其制作过程仍极为耗时耗力,通常需要数小时进行幻灯片设计、录制与后期编辑,才能完成一段仅2至10分钟的视频。与自然视频不同,学术演示视频生成面临独特挑战:输入源为科研论文,信息密度高且包含多模态内容(如文字、图表、表格),同时需协调多个对齐的输出通道,包括幻灯片、字幕、语音以及真人讲解。为应对这些挑战,我们推出了PaperTalker——首个包含101篇科研论文及其作者制作的演示视频、配套幻灯片与演讲者元数据的基准数据集。我们进一步设计了四项定制化评估指标:Meta Similarity(元信息相似度)、PresentArena(演示竞技场)、PresentQuiz(演示问答)和IP Memory(知识产权记忆),用于衡量视频向观众传达论文核心信息的能力。在此基础上,我们提出PaperTalker,这是首个面向学术演示视频生成的多智能体框架。该框架通过一种新颖的高效树搜索视觉选择机制,实现了幻灯片生成与有效版式优化的融合,并集成光标定位、字幕生成、语音合成及虚拟人头像渲染等功能,同时通过幻灯片级别的并行化处理提升生成效率。在Paper2Video任务上的实验表明,我们方法生成的演示视频在信息忠实度与内容丰富性方面均优于现有基线方法,为实现自动化、即用型的学术视频生成迈出了切实可行的一步。我们的数据集、智能体系统及代码已开源,详见:https://github.com/showlab/Paper2Video。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Paper2Video:从科学论文自动生成视频 | 论文 | HyperAI超神经