3 个月前

基于网络社区检测的有效层级信息编织

基于网络社区检测的有效层级信息编织

摘要

随着每天在线生成的信息量急剧增长(例如新闻文章),亟需发展自动化的技术手段,以在事件随时间演进过程中识别相关联的信息内容(即信息线程)。本文提出一种新颖的无监督方法——HINT(Hierarchical Information Thread Identification),用于识别具有内在一致性的层次化信息线程。这些线程能够帮助用户直观理解围绕某一事件或讨论所呈现的多样化、动态演进信息之间的层级关联。具体而言,HINT 采用基于网络社区检测的可扩展架构,通过分析文档之间的时序相关性以及对“5W1H”问题(即何人、何事、何地、何时、为何及如何)的回答,高效识别文档间的层次化关联关系。在 NewSHead 数据集上的实验结果表明,HINT 在所识别线程的质量方面显著优于现有最先进的方法。此外,我们还开展了一项用户研究,结果表明,与基于聚类的顺序线程相比,用户对本研究提出的基于网络的层次化线程表现出显著偏好(p < 0.05)。

基准测试

基准方法指标
information-threading-on-newsheadHINT
NMI: 0.797

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于网络社区检测的有效层级信息编织 | 论文 | HyperAI超神经