Command Palette
Search for a command to run...
StyleID:一种用于风格无关的人脸身份识别的感知感知数据集与度量指标
StyleID:一种用于风格无关的人脸身份识别的感知感知数据集与度量指标
Kwan Yun Changmin Lee Ayeong Jeong Youngseo Kim Seungmi Lee Junyong Noh
摘要
创意人脸风格化旨在将肖像渲染为卡通、素描和绘画等多种视觉风格,同时保留可辨识的身份特征。然而,目前的身份编码器(identity encoders)通常基于自然照片进行训练和校准,在风格化场景下表现出严重的脆弱性。它们往往会将纹理或色调的变化误判为身份漂移,或者无法检测到几何形状的夸张变化。这表明目前缺乏一种与风格无关(style-agnostic)的框架,来评估和监督不同风格及强度下的身份一致性。为了填补这一空白,我们推出了 StyleID,这是一个针对风格化人脸身份的人类感知觉察数据集及评估框架。StyleID 由两个数据集组成:(i) StyleBench-H,这是一个基准测试集,旨在捕捉人类在不同风格强度下,针对基于扩散模型(diffusion-based)和流匹配模型(flow-matching-based)的风格化效果所做出的“相同/不同”验证判断;(ii) StyleBench-S,这是一个监督集,通过受控的双选强制选择(2AFC)实验获得的心理测量识别强度曲线推导而来。利用 StyleBench-S,我们对现有的语义编码器进行了微调,使其相似度排序在不同的风格和强度下都能与人类感知保持一致。实验结果表明,我们校准后的模型与人类判断的相关性显著提高,并且在面对域外(out-of-domain)的艺术家手绘肖像时表现出更强的鲁棒性。我们所有的数据集、代码和预训练模型均已在 https://kwanyun.github.io/StyleID_page/ 公开。
一句话总结
为了解决身份编码器在创意面部风格化下的脆弱性,作者引入了 StyleID,这是一个感知感知的数据集和评估框架,包含用于人类同异验证判断的 StyleBench-H 和用于来自二选一强制选择实验的心理测量监督的 StyleBench-S,利用后者微调语义编码器,使相似性排序与人类感知对齐,并增强对域外艺术家绘制肖像的鲁棒性。
核心贡献
- 本文介绍了 StyleID,这是一个用于评估不同风格化强度下面部身份一致性的人类感知感知数据集和评估框架。该框架包含用于捕捉人类验证判断的 StyleBench-H 和用于从心理测量识别强度曲线推导监督的 StyleBench-S。
- 现有的语义编码器利用 StyleBench-S 监督集进行微调,以在不同风格和变换强度下使相似性排序与人类感知对齐。该监督集源于通过受控二选一强制选择实验获得的心理测量识别强度曲线。
- 实验表明,校准后的模型与人类判断的相关性显著提高,并且对域外艺术家绘制肖像的鲁棒性增强。与此工作相关的所有数据集、代码和预训练模型均公开可用。
引言
创意面部风格化是现代虚拟形象平台和多模态模型的重要组成部分,但在不同视觉习语中保持可识别的身份仍然是一个重大挑战。在自然照片上训练的现有身份编码器通常在风格化下失败,将纹理变化或几何夸张误认为是身份漂移。作者通过 StyleID 解决了这一局限性,这是一个感知感知框架,将身份指标与人类判断在不同风格和强度下对齐。他们构建了 StyleBench-H 以捕捉人类验证数据,并构建 StyleBench-S 以生成心理测量监督曲线。通过在此数据上微调语义编码器,所得模型与人类感知的相关性更高,并且与先前方法相比,在风格化肖像识别方面具有更好的鲁棒性。
数据集
作者引入了 StyleBench 以解决标准面部识别数据集在风格化下的局限性。该数据集包含两个针对评估和模型训练定制的子集。
-
StyleBench-H(人类感知基准)
- 来源: 来自 FFHQ 的高质量肖像,过滤掉了大头部旋转和包含多人的图像。
- 构成: 源图像使用三种方法跨十种艺术风格和七个离散强度级别进行风格化。
- 标注: 68 名有效参与者完成了成对验证任务,以确定源图像和风格化图像是否描绘同一个人。
- 过滤: 数据根据响应延迟和一致性进行了清理,产生了 3,551 个平衡数据点。
- 划分: 包括标准、跨风格和跨方法划分,以测试对未见身份和框架的鲁棒性。
-
StyleBench-S(大规模合成监督)
- 校准: 心理测量曲线使用 72 名参与者的数据将风格化强度映射到人类识别概率。
- 选择策略: 仅保留估计的人类识别概率超过 90% 的配对,以确保身份保留。
- 配置: 该集合包含 4,073 个身份,每个身份在不同方法和风格组合下有 55 张风格化图像。
- 规模: 最终数据集包含约 224,000 个风格化样本用于训练。
-
数据使用与处理
- StyleBench-H 评估泛化能力以及与不同风格强度下人类判断的对齐情况。
- StyleBench-S 为训练深度身份编码器提供感知感知监督。
- 处理涉及构建心理测量函数,以针对人类感知极限校准合成数据阈值。
方法
作者建立了一个统一的框架,用于在创意面部风格化下进行感知对齐的身份评估和建模。此过程始于一个可控风格化管道,采用最先进的扩散和基于流的框架,如 IP-Adapter、InstantID 和 InfiniteYou。这些工具允许生成风格化肖像,并明确控制与源身份偏离的程度。参考框架图以了解整体数据构建和评估管道。作者利用人类评估任务,特别是二选一强制选择和同异验证,来构建 StyleBench-H 基准。这些标注用于识别最佳风格化强度,在此强度下,尽管艺术变化存在,识别准确性仍然保持鲁棒。这一见解推动了 StyleBench-S 的创建,这是一个源自识别强度趋势的大规模合成数据集,为学习在风格化下保持稳定的身份表示提供了结构化训练信号。
为了利用这些数据,作者引入了 StyleID,这是一个基于 CLIP 图像编码器构建的感知校准身份编码器。如下图所示:该架构利用双分支设置,其中主 StyleID 编码器通过注入到冻结 CLIP 主干的注意力和线性层中的 LoRA 适配器进行适配。这种设计允许模型学习风格鲁棒的表示,而不会从预训练流形发生灾难性漂移。训练目标结合三个不同的损失项以确保判别力和稳定性。首先,角度边际头使用 ArcFace 损失公式强制执行身份之间的判别角度边际。给定嵌入 zi 和类别权重 wc,余弦 logit 计算如下: cosθi,c=z^i⊤w^c.θi,c=arccos(cosθi,c)∈[0,π]. 具有加性角度边际 m 和尺度 α,样本 i 的损失为: ℓiang=−logexp(α⋅cos(θi,yi+m))+∑c=yiexp(α⋅cosθi,c)exp(α⋅cos(θi,yi+m)). 其次,监督对比损失 (Lscon) 应用于归一化嵌入,以在实例级别显式拉近同一身份的样本,同时推开不同身份。对于锚点 i,正样本集 P(i) 包括共享同一身份的样本: P(i)={p∈{1,…,B}\{i}∣yp=yi}. 然后使用温度 τ 计算损失: ℓiscon=−∣P(i)∣1∑p∈P(i)log∑a∈{1,...,B}\{i}exp(z^i⊤z^a/τ)exp(z^i⊤z^p/τ). 最后,嵌入正则化损失 (Lreg) 约束适配表示保持在原始冻结 CLIP 嵌入附近以确保稳定性: Lreg=B1∑i=1Bz^i−z^i(0)22. 总训练损失是这些分量的加权和: L=Lang+λsconLscon+λregLreg.
实验
在 StyleBench-H 和 SKSF-A 上的广泛评估表明,StyleID 在保留不同风格化和姿势变化下的人类身份方面显著优于传统身份和语义编码器。消融和骨干选择实验验证,具有组合角度和对比损失的基于 CLIP 的架构比仅针对自然照片优化的模型提供更好的鲁棒性。此外,将 StyleID 集成到生成框架中减少了视觉伪影,并且比标准面部识别基线更好地与人类感知判断对齐。
作者评估了用提出的 StyleID 替换 JoJoGAN 风格化框架中的 ArcFace 编码器的影响。结果表明,新配置在风格保真度、身份保留、表情保留和整体质量方面显著优于基线。所提出的方法在保留身份和面部表情方面显示出优于基线的性能。新编码器的风格保真度和整体图像质量分数明显更高。定量指标始终有利于使用 StyleID 的 JoJoGAN 配置优于 ArcFace。
作者在 StyleBench-H 数据集上将 StyleID 与几个基线进行了评估,以评估风格化下的身份保留。结果表明,StyleID 在所有报告的验证指标上始终优于通用身份编码器和专用风格化面部识别模型。与所有基线方法相比,StyleID 实现了最高的真阳性率、验证准确率和 AUROC。像 ArcFace 和 AdaFace 这样的身份聚焦模型显著优于像 CLIP 和 SigLIP2 这样的语义编码器,但仍不及 StyleID 的性能。专用 StylizedFace 方法显示出比通用基线更好的结果,但始终低于提出的 StyleID 方法。
提供的表格比较了提出的 StyleID 方法与 StyleBench-H 数据集上各种基线模型在跨 ID、跨风格和跨方法评估设置下的表现。结果表明,StyleID 在所有其他方法上始终表现更好,包括专用面部识别模型和通用语义编码器。StyleID 在所有测试划分中实现了验证准确率和真阳性率的顶级性能。该方法在具有挑战性的跨风格和跨方法场景中显示出比基线模型的显著改进。像 CLIP 和 SigLIP2 这样的通用编码器与身份聚焦模型和提出的方法相比显示较低的性能。
作者进行了消融研究,以验证角度边际损失和监督对比损失对 StyleID 模型的贡献。结果表明,结合两个损失函数的完整模型在 StyleBench-H 和 SKSF-A 数据集上始终实现最高的真阳性率和 AUROC 分数。虽然移除角度损失偶尔会在固定阈值下产生更高的准确率,但完整模型在验证任务中显示出更好的判别力和鲁棒性。与消融变体相比,完整 StyleID 模型在 StyleBench-H 跨 ID 和 SKSF-A 数据集上实现了最高的真阳性率和 AUROC。移除监督对比损失导致性能显著下降,特别是在 SKSF-A 数据集上真阳性率的下降中明显。虽然没有角度损失的变体在固定阈值下显示更高的准确率,但完整模型提供了同一身份和不同身份对之间更好的整体可分离性。
作者将提出的 StyleID 方法与 AntelopeV2 基线在两个风格化面部识别基准上进行了比较。结果显示,StyleID 在所有指标上始终优于基线,显示出对由风格化引起的表现变化的优越鲁棒性。StyleID 在 StyleBench-H 和 SKSF-A 数据集上实现了比 AntelopeV2 更高的验证准确率和真阳性率。基线模型在风格化下表现出显著的性能下降,而 StyleID 保持鲁棒。StyleID 产生更高的 AUROC 分数,表明在艺术变换下同一身份和不同身份对的可分离性更好。
该评估通过将提出的 StyleID 方法集成到 JoJoGAN 框架中并在 StyleBench-H 和 SKSF-A 数据集上与各种基线进行比较来进行。结果表明,StyleID 在保留身份和面部表情的同时保持高风格保真度方面,始终优于现有身份编码器和专用模型。此外,消融研究证实,角度边际和监督对比损失的组合在具有挑战性的风格化场景中产生了优越的鲁棒性和判别力。