8 个月前

计算机视觉

计算机视觉

Jong-Dong Lee Seong-Hyun Kang Yanping Li Youngjae Cho

摘要

本文的目标是生成一段视觉效果吸引人的视频，该视频通过神经网络对音乐做出响应，使得每一帧视频都能反映相应音频片段的音乐特征。为了实现这一目标，我们提出了一种名为TräumerAI的神经音乐可视化器，它直接将深度音乐嵌入映射到StyleGAN的风格嵌入。TräumerAI由一个使用短时卷积神经网络（short-chunk CNN）的音乐自动标记模型和在WikiArt数据集上预训练的StyleGAN2组成。我们没有建立音乐和视觉语义之间的客观度量标准，而是以主观方式手动标注了这些配对。具体而言，注释者聆听了100段10秒长的音乐片段，并从200个由StyleGAN生成的示例图像中选择了一个与音乐相匹配的图像。基于收集的数据，我们训练了一个简单的转换函数，用于将音频嵌入转换为风格嵌入。生成的示例表明，音频与视频之间的映射在一定程度上实现了段内相似性和段间差异性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Jong-Dong Lee Seong-Hyun Kang Yanping Li Youngjae Cho

摘要

本文的目标是生成一段视觉效果吸引人的视频，该视频通过神经网络对音乐做出响应，使得每一帧视频都能反映相应音频片段的音乐特征。为了实现这一目标，我们提出了一种名为TräumerAI的神经音乐可视化器，它直接将深度音乐嵌入映射到StyleGAN的风格嵌入。TräumerAI由一个使用短时卷积神经网络（short-chunk CNN）的音乐自动标记模型和在WikiArt数据集上预训练的StyleGAN2组成。我们没有建立音乐和视觉语义之间的客观度量标准，而是以主观方式手动标注了这些配对。具体而言，注释者聆听了100段10秒长的音乐片段，并从200个由StyleGAN生成的示例图像中选择了一个与音乐相匹配的图像。基于收集的数据，我们训练了一个简单的转换函数，用于将音频嵌入转换为风格嵌入。生成的示例表明，音频与视频之间的映射在一定程度上实现了段内相似性和段间差异性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

TräumerAI：用StyleGAN创作音乐梦境 | 论文 | HyperAI超神经