4 个月前

ChuLo: 面向块级的关键信息表示方法用于长文档处理

ChuLo: 面向块级的关键信息表示方法用于长文档处理

摘要

基于Transformer的模型在各种自然语言处理(NLP)任务中取得了显著的成功,但其处理长文档的能力受到计算限制的制约。传统的解决方法,如截断输入、稀疏自注意力机制和分块,虽然试图缓解这些问题,但往往导致信息丢失并削弱模型捕捉长距离依赖关系的能力。本文介绍了一种新的长文档理解分块表示方法——ChuLo,该方法通过无监督关键短语提取对输入标记进行分组,强调语义重要的关键短语分块,以保留核心文档内容的同时减少输入长度。这种方法最大限度地减少了信息损失,并提高了基于Transformer模型的效率。在长文档理解中,特别是在标记分类任务中,保留所有标记对于确保细粒度注释不丢失至关重要,因为这些注释依赖于整个序列的上下文。我们对多个长文档分类任务和长文档标记分类任务进行了评估,并通过全面的定性和定量分析证明了该方法的有效性。我们的实现代码已开源发布在 https://github.com/adlnlp/Chulo。

代码仓库

adlnlp/Chulo
pytorch
GitHub 中提及

基准测试

基准方法指标
document-classification-on-hyperpartisan-newsChuLo
Accuracy: 95.38
document-classification-on-lunChuLo
Accuracy: 64.40

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ChuLo: 面向块级的关键信息表示方法用于长文档处理 | 论文 | HyperAI超神经