8 个月前

计算机视觉

计算机视觉

Ji Qingfeng ; Wang Yuxin ; Sun Letong

摘要

最近，多层感知机（MLP）结构再次受到关注，其中MLP-Mixer尤为突出。在计算机视觉领域，MLP-Mixer以其从通道和标记两个角度提取数据信息的能力而著称，有效地实现了通道和标记信息的融合。实际上，Mixer代表了一种信息提取范式，将通道和标记信息综合在一起。Mixer的核心在于其能够从不同角度混合信息，体现了神经网络架构中“混合”的真正概念。除了通道和标记方面的考虑外，还可以从各种角度创建更加定制化的混合器，以更好地满足特定任务的需求。本研究聚焦于音频识别领域，引入了一种名为带滚动时间和厄米FFT的音频频谱图混合器（Audio Spectrogram Mixer with Roll-Time and Hermit FFT, ASM-RH）的新模型，该模型结合了时域和频域的见解。实验结果表明，ASM-RH特别适用于音频数据，并在多个分类任务中取得了令人鼓舞的结果。相关模型及最优权重文件将予以发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Ji Qingfeng ; Wang Yuxin ; Sun Letong

摘要

最近，多层感知机（MLP）结构再次受到关注，其中MLP-Mixer尤为突出。在计算机视觉领域，MLP-Mixer以其从通道和标记两个角度提取数据信息的能力而著称，有效地实现了通道和标记信息的融合。实际上，Mixer代表了一种信息提取范式，将通道和标记信息综合在一起。Mixer的核心在于其能够从不同角度混合信息，体现了神经网络架构中“混合”的真正概念。除了通道和标记方面的考虑外，还可以从各种角度创建更加定制化的混合器，以更好地满足特定任务的需求。本研究聚焦于音频识别领域，引入了一种名为带滚动时间和厄米FFT的音频频谱图混合器（Audio Spectrogram Mixer with Roll-Time and Hermit FFT, ASM-RH）的新模型，该模型结合了时域和频域的见解。实验结果表明，ASM-RH特别适用于音频数据，并在多个分类任务中取得了令人鼓舞的结果。相关模型及最优权重文件将予以发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供