Date

9 months ago

Organization

Paper URL

2509.03059

License

MIT

Tags

Reasoning

Benchmarks

LoongBench is a multi-domain reasoning evaluation dataset released by the CAMEL-AI team in 2025. The related paper results are "Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers", which aims to provide LLM with multi-domain, verifiable training and assessment resources. The dataset contains 8,729 questions expressed in natural language, covering 12 reasoning-intensive fields such as advanced mathematics, advanced physics, chemistry, computational biology, and programming. Each sample not only comes with executable code and verified answers, but also includes the problem statement, detailed reasoning process, final solution, as well as metadata (question ID and domain information) and domain labels. It is suitable for training and benchmarking cross-domain reasoning capabilities.

This dataset is contributed by community users and is intended for educational and informational purposes only. If any content involves copyright infringement, please contact us at support@hyper.ai for prompt review and removal.

Related Datasets

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

HyperAI

Use this Dataset Discuss on Discord

Date

9 months ago

Organization

Paper URL

2509.03059

License

MIT

Related Datasets

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

2 months ago

ToolACE Complex Tools Learning Dialogue Dataset

2 months ago

Groundsource Global Flood Events Dataset

3 months ago

CHIMERA General Inference Synthetic Dataset

3 months ago

THINGS-EEG EEG Dataset

4 months ago

THINGS-MEG Magnetoencephalography Dataset

4 months ago

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

4 months ago

CL-bench Context Learning Evaluation Benchmark Dataset

4 months ago

DeepPlanning Long-Term Planning Capability Assessment Dataset

4 months ago

Nemotron-Math-v2 Mathematical Inference Dataset

5 months ago

TxT360-3efforts Multi-Task Inference Dataset

5 months ago

LongBench-Pro Long Context Comprehensive Evaluation Dataset

5 months ago

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

Command Palette

LoongBench multi-domain Reasoning Benchmark Dataset

Build AI with AI

HyperAI Newsletters

Command Palette

LoongBench multi-domain Reasoning Benchmark Dataset

Related Datasets

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

ToolACE Complex Tools Learning Dialogue Dataset

Groundsource Global Flood Events Dataset

CHIMERA General Inference Synthetic Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

CL-bench Context Learning Evaluation Benchmark Dataset

DeepPlanning Long-Term Planning Capability Assessment Dataset

Nemotron-Math-v2 Mathematical Inference Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Build AI with AI

HyperAI Newsletters

Command Palette

LoongBench multi-domain Reasoning Benchmark Dataset

Related Datasets

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

ToolACE Complex Tools Learning Dialogue Dataset

Groundsource Global Flood Events Dataset

CHIMERA General Inference Synthetic Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

CL-bench Context Learning Evaluation Benchmark Dataset

DeepPlanning Long-Term Planning Capability Assessment Dataset

Nemotron-Math-v2 Mathematical Inference Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Build AI with AI

HyperAI Newsletters

Related Datasets

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

ToolACE Complex Tools Learning Dialogue Dataset

Groundsource Global Flood Events Dataset

CHIMERA General Inference Synthetic Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

CL-bench Context Learning Evaluation Benchmark Dataset

DeepPlanning Long-Term Planning Capability Assessment Dataset

Nemotron-Math-v2 Mathematical Inference Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Related Datasets

DRACO Cross-Disciplinary Deep Research Benchmark Dataset

ToolACE Complex Tools Learning Dialogue Dataset

Groundsource Global Flood Events Dataset

CHIMERA General Inference Synthetic Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

CL-bench Context Learning Evaluation Benchmark Dataset

DeepPlanning Long-Term Planning Capability Assessment Dataset

Nemotron-Math-v2 Mathematical Inference Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset