4 个月前

TräumerAI:用StyleGAN创作音乐梦境

TräumerAI:用StyleGAN创作音乐梦境

摘要

本文的目标是生成一段视觉效果吸引人的视频,该视频通过神经网络对音乐做出响应,使得每一帧视频都能反映相应音频片段的音乐特征。为了实现这一目标,我们提出了一种名为TräumerAI的神经音乐可视化器,它直接将深度音乐嵌入映射到StyleGAN的风格嵌入。TräumerAI由一个使用短时卷积神经网络(short-chunk CNN)的音乐自动标记模型和在WikiArt数据集上预训练的StyleGAN2组成。我们没有建立音乐和视觉语义之间的客观度量标准,而是以主观方式手动标注了这些配对。具体而言,注释者聆听了100段10秒长的音乐片段,并从200个由StyleGAN生成的示例图像中选择了一个与音乐相匹配的图像。基于收集的数据,我们训练了一个简单的转换函数,用于将音频嵌入转换为风格嵌入。生成的示例表明,音频与视频之间的映射在一定程度上实现了段内相似性和段间差异性。

代码仓库

jdasam/traeumerAI
官方
pytorch

基准测试

基准方法指标
music-auto-tagging-on-timetravelFellini
0..5sec: 5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TräumerAI:用StyleGAN创作音乐梦境 | 论文 | HyperAI超神经