Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

OmniShow: 统一用于 Human-Object Interaction 视频生成的 Multimodal Conditions

往事并非过往:基于 Memory 增强的 Dynamic Reward Shaping

QuanBench+: 一个用于 LLM-Based 量子代码生成的统一多框架 benchmark

用于视觉生成的 Elastic Looped Transformers

ECHO: 基于 One-step Block Diffusion 的高效胸部 X 线报告生成

Matrix-Game 3.0:具有长时程 Memory 的实时流式交互式 World Model

EXAONE 4.5 技术报告

RefineAnything: 用于完美局部细节的多模态区域特定 Refinement

FORGE:面向制造场景的细粒度 Multimodal Evaluation

WildDet3D: 在野外环境下扩展 Promptable 3D Detection

Autoreason: 知晓何时停止的自我修正机制

ActiveGlasses: 通过主动视觉从自我中心视角人类演示中学习操纵技能

MegaStyle:通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

当数字开口说话:在 Text-to-Video Diffusion Models 中对齐文本数字与视觉实例

HY-Embodied-0.5:面向真实世界 Agent 的 Embodied Foundation Models

ClawBench:AI Agent 能否完成日常在线任务?

重新审视推理 SFT 中的泛化问题:基于优化、数据与模型能力的条件分析

SkillClaw:通过 Agentic Evolver 实现技能的集体进化

MDPBench:面向真实场景的多语言文档解析基准测试

TC-AE:解锁深度压缩 Autoencoders 的 Token 容量

INSPATIO-WORLD:一种基于时空 Autoregressive Modeling 的实时 4D 世界 Simulator

FlowInOne: 将多模态生成统一为“图像输入、图像输出”的 Flow Matching

MARS:赋能 Autoregressive Models 的 Multi-Token Generation

以笔触而非像素进行思考:通过交织推理实现的流程驱动型图像生成

RAGEN-2:Agentic RL 中的推理崩溃

Vanast: 通过合成三元组监督实现基于人体图像动画的虚拟试穿

ThinkTwice:面向推理与自我修正的 Large Language Models 联合优化研究

ACES:谁在测试测试集?面向代码生成任务的留一法(Leave-One-Out)AUC 一致性研究

从 Agent Trajectories 中学习检索

Claw-Eval:迈向自主 Agent 的可信 Evaluation

Video-MME-v2:迈向全面视频理解 Benchmark 的下一阶段

GrandCode: 通过 Agentic Reinforcement Learning 实现竞技编程中的 Grandmaster 水平

OmniShow: 统一用于 Human-Object Interaction 视频生成的 Multimodal Conditions

往事并非过往:基于 Memory 增强的 Dynamic Reward Shaping

QuanBench+: 一个用于 LLM-Based 量子代码生成的统一多框架 benchmark

用于视觉生成的 Elastic Looped Transformers

ECHO: 基于 One-step Block Diffusion 的高效胸部 X 线报告生成

Matrix-Game 3.0:具有长时程 Memory 的实时流式交互式 World Model

EXAONE 4.5 技术报告

RefineAnything: 用于完美局部细节的多模态区域特定 Refinement

FORGE:面向制造场景的细粒度 Multimodal Evaluation

WildDet3D: 在野外环境下扩展 Promptable 3D Detection

Autoreason: 知晓何时停止的自我修正机制

ActiveGlasses: 通过主动视觉从自我中心视角人类演示中学习操纵技能

MegaStyle:通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

当数字开口说话:在 Text-to-Video Diffusion Models 中对齐文本数字与视觉实例

HY-Embodied-0.5:面向真实世界 Agent 的 Embodied Foundation Models

ClawBench:AI Agent 能否完成日常在线任务?

重新审视推理 SFT 中的泛化问题:基于优化、数据与模型能力的条件分析

SkillClaw:通过 Agentic Evolver 实现技能的集体进化

MDPBench:面向真实场景的多语言文档解析基准测试

TC-AE:解锁深度压缩 Autoencoders 的 Token 容量

INSPATIO-WORLD:一种基于时空 Autoregressive Modeling 的实时 4D 世界 Simulator

FlowInOne: 将多模态生成统一为“图像输入、图像输出”的 Flow Matching

MARS:赋能 Autoregressive Models 的 Multi-Token Generation

以笔触而非像素进行思考:通过交织推理实现的流程驱动型图像生成

RAGEN-2:Agentic RL 中的推理崩溃

Vanast: 通过合成三元组监督实现基于人体图像动画的虚拟试穿

ThinkTwice:面向推理与自我修正的 Large Language Models 联合优化研究

ACES:谁在测试测试集?面向代码生成任务的留一法(Leave-One-Out)AUC 一致性研究

从 Agent Trajectories 中学习检索

Claw-Eval:迈向自主 Agent 的可信 Evaluation

Video-MME-v2:迈向全面视频理解 Benchmark 的下一阶段

GrandCode: 通过 Agentic Reinforcement Learning 实现竞技编程中的 Grandmaster 水平