HyperAIHyperAI

Command Palette

Search for a command to run...

通过显式关系编码增强Transformer以解决数学问题

Imanol Schlag Paul Smolensky Roland Fernandez Nebojsa Jojic Jürgen Schmidhuber Jianfeng Gao

摘要

我们将在Transformer架构中引入张量积表示(Tensor-Product Representations),以更有效地支持关系结构的显式建模。我们的张量积Transformer(TP-Transformer)在近期推出的数学数据集上取得了新的最先进性能,该数据集包含56类自由形式的数学应用题。模型的核心组件是一种新型注意力机制,称为TP-Attention,它能够显式编码每个Transformer单元与其通过注意力机制所获取值的其他单元之间的关系。与传统的线性组合方式不同,TP-Attention通过非线性方式整合检索到的值,增强了表征构建能力,并有效缓解了多层标准注意力机制带来的歧义问题。TP-Transformer的注意力可视化图谱为理解其解决数学数据集复杂问题的机制提供了更深入的洞察。相关预训练模型与代码将在论文发表后公开。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供