
摘要
降维(Dimension Reduction, DR)技术,如t-SNE、UMAP和TriMAP,在众多真实世界数据集上已展现出卓越的可视化性能。然而,这类方法始终面临一个核心矛盾:即在保持全局结构与保持局部结构之间存在权衡——现有方法往往只能兼顾其一,难以同时优化两者。本文的主要目标是深入理解DR方法中哪些关键要素对于同时保留局部与全局结构至关重要:若缺乏对算法设计选择及其在低维嵌入中所产生的实际影响的深刻认知,便难以设计出性能更优的新方法。针对局部结构的保持,我们基于对现有成功DR方法机制的全新理解,提出了若干具有实用价值的设计原则,用于指导DR损失函数的构建。针对全局结构的保持,我们的分析揭示了“保留哪些成分”这一选择具有关键意义。基于上述洞见,我们提出了一种新的降维算法——成对可控流形近似投影(Pairwise Controlled Manifold Approximation Projection, PaCMAP),该算法能够有效同时保留数据的局部与全局结构。本研究为构建DR算法提供了若干出人意料的深刻见解,明确指出了在算法设计中应采纳与应规避的关键决策。
代码仓库
plaffa/text-relations
GitHub 中提及
YingfanWang/PaCMAP
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-augmentation-on-ga1457 | PaCMAP | Classification Accuracy: 85.3 |