4 个月前

摘要

近年来，深度卷积神经网络（CNN）在图像美学评估任务中展现出令人鼓舞的性能。然而，这类深度CNN方法的性能常常受到网络仅能接受固定尺寸输入这一限制的制约。为满足该要求，输入图像通常需要通过裁剪、变形或填充等方式进行预处理，这些操作往往会导致图像构图改变、分辨率下降或产生图像畸变，从而损害原始图像的美学质量，造成细微细节和整体布局信息的丢失。而这些细微细节与整体布局对于准确评估图像美学至关重要。为此，本文提出一种自适应布局感知多区域卷积神经网络（Adaptive Layout-Aware Multi-Patch CNN，简称 A-Lamp CNN）架构，用于图像美学评估。该新型架构能够直接处理任意尺寸的输入图像，并同时学习图像的细微细节与整体布局信息。为支持对这类混合输入的训练，我们进一步设计了一种专用的双子网神经网络结构，包括多区域子网（Multi-Patch subnet）与布局感知子网（Layout-Aware subnet）。此外，我们还构建了一个融合层，以高效整合来自两个子网的混合特征表示。在大规模美学评估基准数据集（AVA）上的大量实验表明，该方法在图像美学评估任务中显著优于当前最先进的技术水平。

源 PDF