
摘要
我们提出了一种路由算法,该算法接收一个向量序列,并生成一个指定长度和向量维度的新序列。每个输出向量通过更准确地预测输入向量,以最大化“单位比特效益”(bang per bit),即使用数据带来的净收益与忽略数据所导致的净成本之间的差值。我们将输出向量描述为几何对象、作为分配信用的隐变量、作为联想记忆模型中的查询状态,以及作为“心灵社会模型”(Society of Mind)中的代理。通过引入一系列优化措施,该算法将参数量、计算开销和内存占用降低了数个数量级,从而实现了比以往更长序列的路由处理。我们在自然语言处理与视觉分类任务上对所实现的算法进行了评估,结果表明其在准确率上达到竞争力或领先水平,并能实现端到端的可解释信用分配。
代码仓库
glassroom/heinsen_routing
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | Heinsen Routing + BEiT-large 16 224 | Percentage correct: 99.2 |
| image-classification-on-cifar-100 | Heinsen Routing + BEiT-large 16 224 | PARAMS: 309.8M Percentage correct: 93.8 |
| image-classification-on-imagenet | Heinsen Routing + BEiT-large 16 224 | Number of params: 312.8M Top 1 Accuracy: 86.7% |
| sentiment-analysis-on-imdb | Heinsen Routing + RoBERTa Large | Accuracy: 96.2 |
| sentiment-analysis-on-sst-2-binary | Heinsen Routing + RoBERTa-large | Accuracy: 96.0 |
| sentiment-analysis-on-sst-5-fine-grained | Heinsen Routing + RoBERTa Large | Accuracy: 59.8 |