
摘要
近年来,深度卷积神经网络(CNN)在图像美学评估任务中展现出令人鼓舞的性能。然而,这类深度CNN方法的性能常常受到网络仅能接受固定尺寸输入这一限制的制约。为满足该要求,输入图像通常需要通过裁剪、变形或填充等方式进行预处理,这些操作往往会导致图像构图改变、分辨率下降或产生图像畸变,从而损害原始图像的美学质量,造成细微细节和整体布局信息的丢失。而这些细微细节与整体布局对于准确评估图像美学至关重要。为此,本文提出一种自适应布局感知多区域卷积神经网络(Adaptive Layout-Aware Multi-Patch CNN,简称 A-Lamp CNN)架构,用于图像美学评估。该新型架构能够直接处理任意尺寸的输入图像,并同时学习图像的细微细节与整体布局信息。为支持对这类混合输入的训练,我们进一步设计了一种专用的双子网神经网络结构,包括多区域子网(Multi-Patch subnet)与布局感知子网(Layout-Aware subnet)。此外,我们还构建了一个融合层,以高效整合来自两个子网的混合特征表示。在大规模美学评估基准数据集(AVA)上的大量实验表明,该方法在图像美学评估任务中显著优于当前最先进的技术水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| aesthetics-quality-assessment-on-ava | A-Lamp | Accuracy: 82.5% |