6 个月前

摘要

图像美学评估是一项具有挑战性的任务。近年来，深度卷积神经网络（ConvNet）方法在美学评估方面展现出良好的性能。然而，这些深度ConvNet方法的性能往往受限于神经网络仅能接受固定尺寸输入这一约束。为满足该要求，输入图像通常需经过裁剪、缩放或填充等变换操作，这些操作常常破坏图像构图，降低图像分辨率，或引入图像失真，从而损害原始图像的美学质量。本文提出一种保持构图的深度ConvNet方法，该方法可直接从原始尺寸和原始宽高比的输入图像中学习美学特征，无需任何图像预处理变换。具体而言，我们的方法在常规的卷积与池化层基础上引入自适应空间池化层（Adaptive Spatial Pooling Layer），从而直接处理具有原始尺寸和宽高比的输入图像。为进一步实现多尺度特征提取，我们设计了多分支自适应空间池化ConvNet架构（Multi-Net Adaptive Spatial Pooling ConvNet），该架构由多个具有不同自适应空间池化尺寸的子网络组成，并通过基于场景的聚合层有效融合多个子网络的预测结果。在大规模美学评估基准数据集AVA上的实验表明，所提方法显著提升了当前图像美学评估的最先进水平。

源 PDF 查看代码