Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

MoCa:模态感知的持续预训练生成更优的双向多模态嵌入

FreeLong++:通过多频带谱融合实现无训练长视频生成































MoCa:模态感知的持续预训练生成更优的双向多模态嵌入

FreeLong++:通过多频带谱融合实现无训练长视频生成






























超越符号:从脑启发智能到人工通用智能的认知基础及其社会影响
数学推理是否提升通用大语言模型的能力?理解大语言模型推理的可迁移性
SciArena:科学文献任务中基础模型的开放评估平台
医学中的整体人工智能:性能提升与可解释性增强
evolving prompts in-context: 一种开放式的、自我复制的视角
SPIRAL:零和博弈中的自我对弈通过多智能体多轮强化学习激励推理
面向听者的奖励性思考在视觉语言模型中的图像偏好研究
Calligrapher:自由风格文本图像定制
VMoBA:视频扩散模型中的块注意力混合方法
SMMILE:一种专家驱动的多模态医学情境学习基准
自动LLM速通基准:重现NanoGPT改进
Shape-for-Motion:基于3D代理的精确一致视频编辑
从理想到现实:面向实际场景的统一且数据高效的密集预测
ShotBench:视觉-语言模型中的专家级电影理解
XVerse:通过DiT调制实现一致的多主体身份和语义属性控制
24孔板中的零样本抗体设计
KinFormer:适用于催化有机反应动力学的通用动态符号回归
MiCo:多图像对比强化视觉推理
细粒度偏好优化改进了VLM中的空间推理能力
Ark:一个基于Python的开源机器人学习框架
Pangu Pro MoE:分组专家混合以实现高效的稀疏性
LLaVA-Scissor:基于语义连通分量的视频大语言模型中的令牌压缩
BlenderFusion:基于3D的视觉编辑与生成合成
UniMate:一种统一的机械超材料生成、性能预测及条件确认模型
学习跳过Transformer的中间层
SAM4D:在相机和激光雷达流中分割任何物体
在大型语言模型预训练中如何找到“Grokking”?监测从记忆到泛化的转变而不使用测试集
FineWeb2:一管通天下——适应每种语言的预训练数据处理
MADrive:增强记忆的驾驶场景建模
FaSTA^*:用于高效多轮图像编辑的快速-慢速刀具路径代理与子程序挖掘
超越符号:从脑启发智能到人工通用智能的认知基础及其社会影响
数学推理是否提升通用大语言模型的能力?理解大语言模型推理的可迁移性
SciArena:科学文献任务中基础模型的开放评估平台
医学中的整体人工智能:性能提升与可解释性增强
evolving prompts in-context: 一种开放式的、自我复制的视角
SPIRAL:零和博弈中的自我对弈通过多智能体多轮强化学习激励推理
面向听者的奖励性思考在视觉语言模型中的图像偏好研究
Calligrapher:自由风格文本图像定制
VMoBA:视频扩散模型中的块注意力混合方法
SMMILE:一种专家驱动的多模态医学情境学习基准
自动LLM速通基准:重现NanoGPT改进
Shape-for-Motion:基于3D代理的精确一致视频编辑
从理想到现实:面向实际场景的统一且数据高效的密集预测
ShotBench:视觉-语言模型中的专家级电影理解
XVerse:通过DiT调制实现一致的多主体身份和语义属性控制
24孔板中的零样本抗体设计
KinFormer:适用于催化有机反应动力学的通用动态符号回归
MiCo:多图像对比强化视觉推理
细粒度偏好优化改进了VLM中的空间推理能力
Ark:一个基于Python的开源机器人学习框架
Pangu Pro MoE:分组专家混合以实现高效的稀疏性
LLaVA-Scissor:基于语义连通分量的视频大语言模型中的令牌压缩
BlenderFusion:基于3D的视觉编辑与生成合成
UniMate:一种统一的机械超材料生成、性能预测及条件确认模型
学习跳过Transformer的中间层
SAM4D:在相机和激光雷达流中分割任何物体
在大型语言模型预训练中如何找到“Grokking”?监测从记忆到泛化的转变而不使用测试集
FineWeb2:一管通天下——适应每种语言的预训练数据处理
MADrive:增强记忆的驾驶场景建模
FaSTA^*:用于高效多轮图像编辑的快速-慢速刀具路径代理与子程序挖掘