3 个月前

时间感知的大核卷积

摘要

迄今为止，大多数最先进的序列建模架构均采用注意力机制来构建基于语言任务的生成模型。其中一些模型利用全部可用的序列标记来生成注意力分布，导致时间复杂度高达 $O(n^2)$。另一些方法则采用深度可分离卷积，并结合大小为 $k$ 的 softmax 归一化卷积核，作为有限窗口的自注意力机制，其时间复杂度为 $O(k \cdot n)$。本文提出了一种新型自适应卷积操作——时间感知大核卷积（Time-aware Large Kernel, TaLK）卷积，该方法能够学习预测求和核的大小，而非使用固定尺寸的核矩阵。这一设计使得模型的时间复杂度降低至 $O(n)$，从而实现序列编码过程与标记数量呈线性关系。我们在大规模标准机器翻译、抽象摘要生成和语言建模数据集上对所提方法进行了评估，结果表明，TaLK 卷积在效率上显著优于其他基于注意力或卷积的现有方法，是一种高效且具有竞争力的改进方案。

代码仓库

lioutasb/TaLKConvolutions

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
document-summarization-on-cnn-daily-mail	TaLK Convolutions (Deep)	ROUGE-1: 40.59 ROUGE-2: 18.97 ROUGE-L: 36.81
document-summarization-on-cnn-daily-mail	TaLK Convolutions (Standard)	ROUGE-1: 40.03 ROUGE-2: 18.45 ROUGE-L: 36.13
language-modelling-on-wikitext-103	TaLK Convolutions	Number of params: 240M Test perplexity: 23.3
machine-translation-on-iwslt2014-german	TaLK Convolutions	BLEU score: 35.5
machine-translation-on-wmt2014-english-french	TaLK Convolutions	BLEU score: 43.2
machine-translation-on-wmt2014-english-german	TaLK Convolutions	BLEU score: 29.6 Number of Params: 209M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供