Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

VLM-SlideEval:在PPT中评估VLMs的结构化理解与扰动敏感性

TeraSim-World:面向端到端自动驾驶的全球安全关键数据合成





























VLM-SlideEval:在PPT中评估VLMs的结构化理解与扰动敏感性

TeraSim-World:面向端到端自动驾驶的全球安全关键数据合成




























前瞻锚定:在基于音频的人体动画中保持角色身份
VITA-E:自然具身交互中的并发视觉、听觉、语言生成与行动
FARMER:基于像素的流式自回归Transformer
数据Agent综述:新兴范式还是被夸大的炒作?
ReCode:统一规划与执行以实现通用粒度控制
Concerto:联合2D-3D自监督学习涌现空间表征
Magellan:用于潜在空间探索与新颖性生成的引导式MCTS
DEEDEE:快速且可扩展的分布外动态检测
通过Token重排实现更稀疏的块稀疏注意力
AGI的定义
从去噪到精炼:一种面向视觉-语言扩散模型的校正框架
逐步采样,分块优化:面向文本到图像生成的分块级GRPO
视频作为提示:视频生成的统一语义控制
DeepAgent:具备可扩展工具集的通用推理Agent
不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计
Reac-Discovery:一种由人工智能驱动的连续流催化反应器发现与优化平台
BoltzGen:迈向通用结合剂设计
HSCodeComp:面向层级规则应用中深度搜索Agent的现实且专家级基准
DyPE:用于超高分辨率扩散的动态位置外推
HoloCine:电影级多镜头长视频叙事的全局生成
Open-o3 Video:基于显式时空证据的视频推理
AdaSPEC:用于高效推测解码器的可选知识蒸馏
人类-Agent协同的论文到页面制作成本低于0.1美元
从Token化到视觉阅读
用于微调MLLMs的定向推理注入
语言模型是单射的,因此可逆
自由Transformer
基于机器学习的量子处理单元(QPU)处理时间预测
量子遍历性边缘的建设性干涉观测
VideoAgentTrek:从无标签视频中进行计算机使用预训练
前瞻锚定:在基于音频的人体动画中保持角色身份
VITA-E:自然具身交互中的并发视觉、听觉、语言生成与行动
FARMER:基于像素的流式自回归Transformer
数据Agent综述:新兴范式还是被夸大的炒作?
ReCode:统一规划与执行以实现通用粒度控制
Concerto:联合2D-3D自监督学习涌现空间表征
Magellan:用于潜在空间探索与新颖性生成的引导式MCTS
DEEDEE:快速且可扩展的分布外动态检测
通过Token重排实现更稀疏的块稀疏注意力
AGI的定义
从去噪到精炼:一种面向视觉-语言扩散模型的校正框架
逐步采样,分块优化:面向文本到图像生成的分块级GRPO
视频作为提示:视频生成的统一语义控制
DeepAgent:具备可扩展工具集的通用推理Agent
不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计
Reac-Discovery:一种由人工智能驱动的连续流催化反应器发现与优化平台
BoltzGen:迈向通用结合剂设计
HSCodeComp:面向层级规则应用中深度搜索Agent的现实且专家级基准
DyPE:用于超高分辨率扩散的动态位置外推
HoloCine:电影级多镜头长视频叙事的全局生成
Open-o3 Video:基于显式时空证据的视频推理
AdaSPEC:用于高效推测解码器的可选知识蒸馏
人类-Agent协同的论文到页面制作成本低于0.1美元
从Token化到视觉阅读
用于微调MLLMs的定向推理注入
语言模型是单射的,因此可逆
自由Transformer
基于机器学习的量子处理单元(QPU)处理时间预测
量子遍历性边缘的建设性干涉观测
VideoAgentTrek:从无标签视频中进行计算机使用预训练