3 个月前

SEDTWik:基于分割的推文事件检测方法及其在维基百科中的应用

SEDTWik:基于分割的推文事件检测方法及其在维基百科中的应用

摘要

事件检测是近年来文本挖掘领域备受关注的研究方向,这主要得益于社交媒体数据(尤其是推特数据)的广泛可用性。由于推特广泛使用话题标签(hashtag)以及其字数限制,使得其成为获取现实世界事件信息的重要来源,能够以简洁明了的方式呈现事件动态。然而,以往针对推文的事件检测研究大多仅适用于检测局部事件或突发新闻,往往遗漏大量重要事件。本文系统地分析了从推文中进行事件检测所面临的主要挑战,并提出了一种基于推文分段的事件检测方法——SEDTWik,该方法是对先前工作的扩展,能够从多种类别中识别全球范围内发生的具有新闻价值的事件。其核心思想是将每条推文及其话题标签分割为若干语义片段,提取具有突发性(bursty)特征的片段,对其进行聚类并生成摘要。我们在知名的Events2012语料库上对所提方法进行了评估,结果达到了当前最优水平。关键词:事件检测,推特,社交媒体,微博,推文分段,文本挖掘,维基百科,话题标签

基准测试

基准方法指标
twitter-event-detection-on-events2012-oct-11SEDTWik
Duplicate Event Rate (DERate): 14.10%
Number of Events: 79
Precision: 88.12%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SEDTWik:基于分割的推文事件检测方法及其在维基百科中的应用 | 论文 | HyperAI超神经