HyperAI超神经

摘要

我们提出了一种深度且轻量级的Transformer模型——DeLighT，该模型在参数量显著减少的情况下，性能可与标准Transformer模型相当甚至更优。DeLighT通过两种方式更高效地分配参数：（1）在每个Transformer模块内部，采用一种深度且轻量的变换——DeLighT变换，优化模块内部结构；（2）在模块之间，采用分块缩放策略，使得靠近输入层的DeLighT模块更浅更窄，而靠近输出层的模块则更宽更深。总体而言，DeLighT网络的深度比标准Transformer模型高出2.5至4倍，但参数量和计算量却更少。在标准机器翻译和语言建模任务上的实验表明，DeLighT在平均参数量减少2至3倍的情况下，性能可与基线Transformer模型持平或超越。我们的源代码已开源，地址为：\url{https://github.com/sacmehta/delight}。

摘要

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

摘要

用 AI 构建 AI

HyperAI Newsletters

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

摘要

用 AI 构建 AI

HyperAI Newsletters

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DeLighT：深度轻量级Transformer

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DeLighT：深度轻量级Transformer

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DeLighT：深度轻量级Transformer

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

摘要

用 AI 构建 AI

HyperAI Newsletters