6 个月前

摘要

计算机系统中的各类缺陷，如架构、设计或实现阶段的故障、漏洞和错误，会带来安全漏洞，攻击者可利用这些漏洞破坏系统的安全性。通用弱点枚举（Common Weakness Enumerations, CWE）是一种分层结构化的软件弱点词典，旨在帮助理解软件缺陷的本质、其被利用后的潜在影响，以及相应的缓解措施。通用漏洞与暴露（Common Vulnerabilities and Exposures, CVE）则提供针对特定产品或协议的简明低层级漏洞描述，实现唯一标识。将CVE映射到CWE，有助于深入理解漏洞的影响并制定有效的应对策略。然而，由于人工映射CVE至CWE效率低下且不可持续，自动化映射成为迫切需求，但面临巨大挑战。本文提出一种基于Transformer的新型学习框架（V2W-BERT）。该方法融合自然语言处理、链接预测与迁移学习的思想，在训练数据充足的CWE实例上表现优于以往方法，同时在训练数据稀少甚至缺失的罕见CWE类别中也展现出显著优势。此外，该方法在利用历史数据预测未来CVE实例的关联链接方面取得了显著提升，具备良好的实际应用前景。基于MITRE与国家漏洞数据库（National Vulnerability Database）的数据实验表明，该模型在随机划分数据集上最高可达到97%的预测准确率，在时间划分数据集上也达到94%的准确率。我们相信，本研究将推动更优方法与训练模型的设计，并为应对网络安全领域日益复杂的问题提供有力支持。

源 PDF