
摘要
气候变化在全球范围内带来了严峻的挑战,对低收入国家的影响尤为显著,这些国家通常缺乏资源和在国际舞台上的语言代表性。尽管孟加拉国被认为是受气候影响最脆弱的国家之一,但关于气候变化和自然语言处理(NLP)的孟加拉语研究仍存在空白。为了解决这一不平衡问题,我们推出了“Dhoroni”,这是一个新的孟加拉语(Bangla)气候变化和环境新闻数据集,包含2300篇标注的孟加拉语新闻文章,提供了多种视角,包括政治影响、科学/统计数据、真实性、立场检测和利益相关者参与。此外,我们对Dhoroni进行了深入的探索性分析,并引入了BanglaBERT-Dhoroni模型系列,这是一组针对孟加拉语气候变化和环境意见检测的新基线模型,在我们的数据集上进行了微调。本研究对于提高孟加拉语(Bangla)气候讨论的可访问性和分析能力具有重要意义,有助于解决像孟加拉国这样受气候影响地区的关键沟通和研究空白,该国有1.8亿人口。
代码仓库
ciol-researchlab/Dhoroni
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| stance-detection-on-dhoroni | BanglaBERT-Dhoroni | Accuracy: 0.635 F1 Score: 0.308 Precision: 0.426 Recall: 0.295 |