3 个月前

使用标题对乌尔都语新闻进行聚类

使用标题对乌尔都语新闻进行聚类

摘要

本文提出并评估了一种新算法,用于自动对来自不同新闻机构的乌尔都语新闻进行聚类。该任务具有挑战性,因为目前尚无针对乌尔都语的自然语言处理工具库。作者的实验数据集包含来自巴基斯坦知名媒体机构的新闻,涵盖《贾恩报》(Jang)、英国广播公司乌尔都语频道(BBC Urdu)、《每日电讯报》乌尔都语版(Express)、UrduPoint以及美国之音乌尔都语频道(Voice of America Urdu, VOA)。所提出的算法仅基于新闻标题进行聚类。作者认为,新闻标题能够简洁地概括新闻内容,因此选择使用标题而非整篇新闻文本进行聚类。实验评估结果表明,该方法在利用标题识别相似新闻时,精确率(precision)的微观平均值(micro-average)为0.45,宏观平均值(macro-average)为0.48。

基准测试

基准方法指标
text-clustering-on-urdu-news-headlinesVector Space Model
Related Headlines: 85

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用标题对乌尔都语新闻进行聚类 | 论文 | HyperAI超神经