HyperAI超神经

摘要

近年来，Transformer模型已成为自然语言处理领域的重要基础模型，随之而来的是对模型规模扩展的广泛关注与投入。然而，大型Transformer语言模型在训练和推理阶段的成本极高，因此亟需开展更多研究以探索更具效率的模型变体。在本工作中，我们受到统计语言建模领域文献的启发，提出了一种简单而有效的Transformer架构改进方法：通过引入由文本序列离散潜在表示构建的n-gram信息，对模型进行增强。我们在C4数据集上评估了所提出的模型（命名为N-Grammer）在语言建模任务上的表现，并在SuperGLUE数据集上测试其在文本分类任务中的性能。实验结果表明，N-Grammer在多个方面优于包括标准Transformer和Primer在内的多种强基准模型。为促进研究的可复现性，我们已将该模型以Jax框架实现并开源。

摘要

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely

摘要

用 AI 构建 AI

HyperAI Newsletters

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely

摘要

用 AI 构建 AI

HyperAI Newsletters

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

N-Grammer：通过潜在n-gram增强Transformer

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

N-Grammer：通过潜在n-gram增强Transformer

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

N-Grammer：通过潜在n-gram增强Transformer

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely

Aurko Roy Rohan Anil Guangda Lai Benjamin Lee Jeffrey Zhao Shuyuan Zhang Shibo Wang Ye Zhang Shen Wu Rigel Swavely