日期

1 年前

数据集组织

发布 URL

论文 URL

标签

LLM4Mat-Bench 是由普林斯顿大学、多伦多大学等机构联合创建的一个用于材料属性预测的多模态语言模型评估数据集，相关论文成果为「LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction」, 旨在评估大型语言模型 (LLMs) 在材料属性预测与材料发现任务中的性能。该数据集收录了约 197 万条晶体结构样本，来自 10 个公开材料数据库，涵盖 45 种不同的材料物理与化学属性，是迄今为止用于评估大型语言模型 (LLM) 用于材料性能预测的性能的最大基准。

数据集中的每条记录通过多种输入模态进行表征，包括晶体化学组成 (composition）、标准晶体结构文件 (CIF）、以及由 Robocrystallographer 工具生成的晶体结构自然语言描述。这些模态共同构成了对材料的全面表示，用于支持多种任务场景下的 LLMs 输入与学习。

数据总量：

晶体组成模态 (Composition）：约 4.7M tokens
晶体结构模态 (CIF）：约 615.5M tokens
文本描述模态 (Text Descriptions）：约 3.1B tokens 该数据集的构建流程包括从多个主流材料数据库中采集原始 CIF 文件与材料属性，并基于晶体结构自动生成结构语言描述，从而形成多模态、统一结构的数据样本。每个样本记录均包含对应的材料 ID 、化学式、属性值（如带隙、形成能、密度、弹性模量等）等信息。 LLM4Mat-Bench 的核心目标是推动材料科学与自然语言处理的交叉融合，促进任务特定模型评估、属性预测、指令微调等方向的研究与应用发展。其多源、多模态、大规模的特点，使其成为材料语言模型研究中的重要参考基准。

Citation

“`bib @article{rubungo2025llm4mat, title={LLM4Mat-bench: benchmarking large language models for materials property prediction}, author={Rubungo, Andre Niyongabo and Li, Kangming and Hattrick-Simpers, Jason and Dieng, Adji Bousso}, journal={Machine Learning: Science and Technology}, volume={6}, number={2}, pages={020501}, year={2025}, publisher={IOP Publishing} }

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

在 Discord 上讨论

日期

1 年前

数据集组织

发布 URL

论文 URL

标签

数据总量：

晶体组成模态 (Composition）：约 4.7M tokens
晶体结构模态 (CIF）：约 615.5M tokens
文本描述模态 (Text Descriptions）：约 3.1B tokens 该数据集的构建流程包括从多个主流材料数据库中采集原始 CIF 文件与材料属性，并基于晶体结构自动生成结构语言描述，从而形成多模态、统一结构的数据样本。每个样本记录均包含对应的材料 ID 、化学式、属性值（如带隙、形成能、密度、弹性模量等）等信息。 LLM4Mat-Bench 的核心目标是推动材料科学与自然语言处理的交叉融合，促进任务特定模型评估、属性预测、指令微调等方向的研究与应用发展。其多源、多模态、大规模的特点，使其成为材料语言模型研究中的重要参考基准。

Citation

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。

WGO-Bench 机器人视频基准数据集

42 分钟前

MAKIEVAL 多语言文化知识评估数据集

42 分钟前

Verbatim Spans 查询条件证据提取数据集

5 小时内

RHELM 长程记忆评估数据集

3 小时前

Movie Feelings 电影情感特征数据集

12 天前

SMOL 多语言翻译平行数据集

1 个月前

chi-bench 医疗智能体基准评测数据集

13 天前

ViMU 视频隐喻理解数据集

1 个月前

MemLens 多模态长上下文基准数据集

1 个月前

MathNet 多模态数学基准推理数据集

1 个月前

Claw-Eval 真实世界评测基准数据集

1 个月前

QCalEval 量子校准图表理解数据集

2 个月前

RSRCC 遥感区域变化理解基准数据集

8 天前

World Model Bench 世界模型基准数据集

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

LLM4Mat-Bench 晶体结构数据集

数据总量：

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LLM4Mat-Bench 晶体结构数据集

数据总量：

Citation

相关数据集

WGO-Bench 机器人视频基准数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

RHELM 长程记忆评估数据集

Movie Feelings 电影情感特征数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

World Model Bench 世界模型基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LLM4Mat-Bench 晶体结构数据集

数据总量：

Citation

相关数据集

WGO-Bench 机器人视频基准数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

RHELM 长程记忆评估数据集

Movie Feelings 电影情感特征数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

World Model Bench 世界模型基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

WGO-Bench 机器人视频基准数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

RHELM 长程记忆评估数据集

Movie Feelings 电影情感特征数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

World Model Bench 世界模型基准数据集

相关数据集

WGO-Bench 机器人视频基准数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

RHELM 长程记忆评估数据集

Movie Feelings 电影情感特征数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

World Model Bench 世界模型基准数据集