Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

OmniSVG:一种统一的可扩展矢量图形生成模型

算法思维理论































OmniSVG:一种统一的可扩展矢量图形生成模型

算法思维理论






























机器人世界模型:用于机器人鲁棒策略优化的神经网络模拟器
奖励强制:基于奖励分布匹配蒸馏的高效流式视频生成
语义引领方向:通过异步潜在扩散实现语义与纹理建模的协同
ARM-Thinker:通过智能体工具使用与视觉推理强化多模态生成式奖励模型
Nex-N1:通过统一生态系统训练的智能体模型,用于大规模环境构建
DAComp:面向数据智能全生命周期的数据Agent基准测试
实时虚拟形象:基于实时音频驱动的无限长度虚拟形象生成
F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者
VOccl3D:一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集
Alpamayo-R1:面向长尾场景下可泛化的自动驾驶,连接推理与行为预测
环环相扣:一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅
重新思考文本到视觉生成中推理时扩展的提示设计
作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法
OneThinker:面向图像与视频的全功能推理模型
ViDiC:视频差异描述
PretrainZero:强化主动预训练
每个Token都至关重要:在大型语言模型中泛化16M超长上下文
SimScale:通过大规模真实世界仿真学习驾驶
Skywork-R1V4:通过图像与DeepResearch的交织思维迈向智能多模态代理
基于最小人类监督的引导式自进化LLM
MultiShotMaster:一种可控制的多镜头视频生成框架
MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航
一致性评论者:通过参考引导的注意力对齐修正生成图像中的不一致性
我们距离真正有用的深度研究Agent还有多远?
基于LLM的强化学习稳定性优化:方法与实践
Envision:面向因果世界过程洞察的统一理解与生成基准测试
LongVT:通过原生工具调用激励“以长视频进行思考”
从代码基础模型到Agent与应用:代码智能实用指南
基于物理驱动的时空建模用于AI生成视频检测
Mem-α:通过强化学习学习记忆构建
机器人世界模型:用于机器人鲁棒策略优化的神经网络模拟器
奖励强制:基于奖励分布匹配蒸馏的高效流式视频生成
语义引领方向:通过异步潜在扩散实现语义与纹理建模的协同
ARM-Thinker:通过智能体工具使用与视觉推理强化多模态生成式奖励模型
Nex-N1:通过统一生态系统训练的智能体模型,用于大规模环境构建
DAComp:面向数据智能全生命周期的数据Agent基准测试
实时虚拟形象:基于实时音频驱动的无限长度虚拟形象生成
F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者
VOccl3D:一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集
Alpamayo-R1:面向长尾场景下可泛化的自动驾驶,连接推理与行为预测
环环相扣:一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅
重新思考文本到视觉生成中推理时扩展的提示设计
作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法
OneThinker:面向图像与视频的全功能推理模型
ViDiC:视频差异描述
PretrainZero:强化主动预训练
每个Token都至关重要:在大型语言模型中泛化16M超长上下文
SimScale:通过大规模真实世界仿真学习驾驶
Skywork-R1V4:通过图像与DeepResearch的交织思维迈向智能多模态代理
基于最小人类监督的引导式自进化LLM
MultiShotMaster:一种可控制的多镜头视频生成框架
MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航
一致性评论者:通过参考引导的注意力对齐修正生成图像中的不一致性
我们距离真正有用的深度研究Agent还有多远?
基于LLM的强化学习稳定性优化:方法与实践
Envision:面向因果世界过程洞察的统一理解与生成基准测试
LongVT:通过原生工具调用激励“以长视频进行思考”
从代码基础模型到Agent与应用:代码智能实用指南
基于物理驱动的时空建模用于AI生成视频检测
Mem-α:通过强化学习学习记忆构建