Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

多模态提示优化:为何不利用多种模态来提升MLLMs?

旁路增强引导用于幻觉抑制的扩散采样































多模态提示优化:为何不利用多种模态来提升MLLMs?

旁路增强引导用于幻觉抑制的扩散采样






























用相机思考:一种面向以相机为中心的感知与生成的统一多模态模型
D2E:在桌面数据上扩展视觉-动作预训练以实现向具身AI的迁移
Code2Video:一种以代码为中心的教育视频生成范式
博士偏见:人工智能驱动的医疗指导中的社会不平等
LLM的二阶优化潜力:基于完整高斯-牛顿法的研究
元认知增强推理模型:自对齐强化学习
从何到因:一种基于证据的化学反应条件推理多Agent系统
DreamOmni2:基于多模态指令的编辑与生成
VideoCanvas:通过上下文条件实现任意时空补丁的统一视频补全
UniVideo:视频的统一理解、生成与编辑
MemMamba:重新思考状态空间模型中的记忆模式
MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理
PromptCoT 2.0:面向大型语言模型推理的提示合成扩展
Extract-0:用于文档信息提取的专用语言模型
OmniRetarget:面向人形机器人全身运动与操作及场景交互的交互保持型数据生成
WildSpeech-Bench:在真实场景中对端到端SpeechLLM进行基准测试
针对大型语言模型对齐的内部激活值的Token感知编辑
旨在学习:面向低资源视觉-语言建模的Token级动态门控
通过早期经验进行Agent学习
MATRIX:用于交互感知视频生成的掩码轨迹对齐
RLinf-VLA:一种统一且高效的VLA+RL训练框架
SHANKS:用于语音语言模型的同步听与思
Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型
缓存到缓存:大型语言模型之间的直接语义通信
Ming-UniVision:基于统一连续Tokenizer的联合图像理解与生成
Phi-3 技术报告:一款可在您的手机上本地运行的高性能语言模型
Qwen2.5 技术报告
通过引入深度研究增强AlphaEvolve实现科学算法发现
ConstraintLLM:一种面向工业级约束编程的神经符号框架
代码辅助思维链与指令的扩展用于模型推理
用相机思考:一种面向以相机为中心的感知与生成的统一多模态模型
D2E:在桌面数据上扩展视觉-动作预训练以实现向具身AI的迁移
Code2Video:一种以代码为中心的教育视频生成范式
博士偏见:人工智能驱动的医疗指导中的社会不平等
LLM的二阶优化潜力:基于完整高斯-牛顿法的研究
元认知增强推理模型:自对齐强化学习
从何到因:一种基于证据的化学反应条件推理多Agent系统
DreamOmni2:基于多模态指令的编辑与生成
VideoCanvas:通过上下文条件实现任意时空补丁的统一视频补全
UniVideo:视频的统一理解、生成与编辑
MemMamba:重新思考状态空间模型中的记忆模式
MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理
PromptCoT 2.0:面向大型语言模型推理的提示合成扩展
Extract-0:用于文档信息提取的专用语言模型
OmniRetarget:面向人形机器人全身运动与操作及场景交互的交互保持型数据生成
WildSpeech-Bench:在真实场景中对端到端SpeechLLM进行基准测试
针对大型语言模型对齐的内部激活值的Token感知编辑
旨在学习:面向低资源视觉-语言建模的Token级动态门控
通过早期经验进行Agent学习
MATRIX:用于交互感知视频生成的掩码轨迹对齐
RLinf-VLA:一种统一且高效的VLA+RL训练框架
SHANKS:用于语音语言模型的同步听与思
Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型
缓存到缓存:大型语言模型之间的直接语义通信
Ming-UniVision:基于统一连续Tokenizer的联合图像理解与生成
Phi-3 技术报告:一款可在您的手机上本地运行的高性能语言模型
Qwen2.5 技术报告
通过引入深度研究增强AlphaEvolve实现科学算法发现
ConstraintLLM:一种面向工业级约束编程的神经符号框架
代码辅助思维链与指令的扩展用于模型推理