3 个月前

一种面向突发性特征的文档年代判定方法

一种面向突发性特征的文档年代判定方法

摘要

大量主流应用,如时间检索、事件检测和趋势识别,均依赖于文本集合中每篇文档的时间戳信息。然而,在许多实际场景中,所需的时间戳要么无法获取,要么存在歧义。这一问题在大规模历史数字化文档库中尤为突出:由于数字化过程中可能出现时间戳损坏,或原始数据本身缺乏时间信息,导致时间戳不可用。本文研究了文档时间戳的近似推断任务,即文档定年(document dating)。我们提出了一种基于内容的定年方法,并引入了术语突现性(term burstiness)领域的最新研究成果,从而克服了以往方法的局限性,例如固定时间区间划分策略的僵化问题。通过在多个数据集上开展的广泛实验评估,我们验证了所提方法的有效性与优势,结果表明,该方法在文档定年任务中显著优于现有最先进方法。

基准测试

基准方法指标
document-dating-on-apwBurstySimDater
Accuracy: 45.9
document-dating-on-nytBurstySimDater
Accuracy: 38.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种面向突发性特征的文档年代判定方法 | 论文 | HyperAI超神经