4 个月前

陈述:利用大型语言模型从表格中提取ESG关键绩效指标的通用信息

陈述:利用大型语言模型从表格中提取ESG关键绩效指标的通用信息

摘要

环境、社会和治理(ESG)关键绩效指标(KPIs)评估组织在气候变化、温室气体排放、水资源消耗、废物管理、人权、多样性及政策等方面的表现。ESG报告通过表格传达这些宝贵的定量信息。然而,由于表格结构和内容的高度变异性,提取这些信息变得十分困难。我们提出了一种新的领域无关的数据结构——陈述(Statements),用于提取定量事实及相关信息。我们将表格转换为陈述视为一项新的监督深度学习通用信息提取任务。我们引入了SemTabNet——一个包含超过10万张注释表格的数据集。通过对一系列基于T5的陈述提取模型进行研究,我们的最佳模型生成的陈述与真实值的相似度达到了82%(相比之下,基线模型仅为21%)。我们通过将该模型应用于超过2700张来自ESG报告的表格,展示了陈述的优势。陈述的同质性使得对大量ESG报告中广泛的信息进行探索性数据分析成为可能。

代码仓库

ds4sd/semtabnet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
information-extraction-on-semtabnetT5
average Tree Similarity Score: 81.76

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供