3 个月前

通过显式关系编码增强Transformer以解决数学问题

通过显式关系编码增强Transformer以解决数学问题

摘要

我们将在Transformer架构中引入张量积表示(Tensor-Product Representations),以更有效地支持关系结构的显式建模。我们的张量积Transformer(TP-Transformer)在近期推出的数学数据集上取得了新的最先进性能,该数据集包含56类自由形式的数学应用题。模型的核心组件是一种新型注意力机制,称为TP-Attention,它能够显式编码每个Transformer单元与其通过注意力机制所获取值的其他单元之间的关系。与传统的线性组合方式不同,TP-Attention通过非线性方式整合检索到的值,增强了表征构建能力,并有效缓解了多层标准注意力机制带来的歧义问题。TP-Transformer的注意力可视化图谱为理解其解决数学数据集复杂问题的机制提供了更深入的洞察。相关预训练模型与代码将在论文发表后公开。

代码仓库

基准测试

基准方法指标
question-answering-on-mathematics-datasetTP-Transformer
Accuracy: 0.8192

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过显式关系编码增强Transformer以解决数学问题 | 论文 | HyperAI超神经