3 个月前

一种用于序列中向量路由的算法

一种用于序列中向量路由的算法

摘要

我们提出了一种路由算法,该算法接收一个向量序列,并生成一个指定长度和向量维度的新序列。每个输出向量通过更准确地预测输入向量,以最大化“单位比特效益”(bang per bit),即使用数据带来的净收益与忽略数据所导致的净成本之间的差值。我们将输出向量描述为几何对象、作为分配信用的隐变量、作为联想记忆模型中的查询状态,以及作为“心灵社会模型”(Society of Mind)中的代理。通过引入一系列优化措施,该算法将参数量、计算开销和内存占用降低了数个数量级,从而实现了比以往更长序列的路由处理。我们在自然语言处理与视觉分类任务上对所实现的算法进行了评估,结果表明其在准确率上达到竞争力或领先水平,并能实现端到端的可解释信用分配。

代码仓库

glassroom/heinsen_routing
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-cifar-10Heinsen Routing + BEiT-large 16 224
Percentage correct: 99.2
image-classification-on-cifar-100Heinsen Routing + BEiT-large 16 224
PARAMS: 309.8M
Percentage correct: 93.8
image-classification-on-imagenetHeinsen Routing + BEiT-large 16 224
Number of params: 312.8M
Top 1 Accuracy: 86.7%
sentiment-analysis-on-imdbHeinsen Routing + RoBERTa Large
Accuracy: 96.2
sentiment-analysis-on-sst-2-binaryHeinsen Routing + RoBERTa-large
Accuracy: 96.0
sentiment-analysis-on-sst-5-fine-grainedHeinsen Routing + RoBERTa Large
Accuracy: 59.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于序列中向量路由的算法 | 论文 | HyperAI超神经