Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

UniVerse-1:通过专家拼接实现统一的音视频生成

基础模型在逐步具身推理中的表现如何?































UniVerse-1:通过专家拼接实现统一的音视频生成

基础模型在逐步具身推理中的表现如何?






























脉冲脑技术报告:脉冲脑启发的大规模模型
SAGE:语义理解的现实基准
WAVECLIP:小波Token化用于自适应分辨率CLIP
EmbeddingGemma:强大且轻量的文本表示
通过GRPO提升语音感知语言模型中的语音理解能力
VLMs 距离视觉空间智能还有多远?一项基准驱动的视角
SIM-CoT:监督式隐式思维链
SWE-QA:语言模型能否回答仓库级代码问题?
视频模型是零样本学习者和推理者
用于机械工程分析问题关键求解的N-Plus-1 GPT Agent
Memory-QA:基于多模态记忆的回忆问答
MAPO:混合优势策略优化
Hyper-Bagel:一种用于多模态理解与生成的统一加速框架
预训练数据上的强化学习
视觉运动策略中是否需要本体感觉状态?
Baseer:用于阿拉伯文文档到Markdown OCR的视觉-语言模型
GenExam:跨学科文本到图像测评
Nav-R1:具身场景中的推理与导航
MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展
ARE:扩展Agent环境与评估
DiffusionNFT:基于前向过程的在线扩散强化
TempSamp-R1:面向视频LLM的强化微调有效时间采样
OnePiece:将上下文工程与推理引入工业级级联排序系统
OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入
LIMI:Agent的少即是多
一种模块化融合神经网络方法,用于高效预测蛋白质序列中的多金属结合位点
IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破
直接对齐完整扩散轨迹与细粒度人类偏好
用于药物-药物相互作用预测的多尺度图神经过程与跨药物共注意力机制
GenCAD-3D:基于多模态潜在空间对齐与合成数据集平衡的CAD程序生成
脉冲脑技术报告:脉冲脑启发的大规模模型
SAGE:语义理解的现实基准
WAVECLIP:小波Token化用于自适应分辨率CLIP
EmbeddingGemma:强大且轻量的文本表示
通过GRPO提升语音感知语言模型中的语音理解能力
VLMs 距离视觉空间智能还有多远?一项基准驱动的视角
SIM-CoT:监督式隐式思维链
SWE-QA:语言模型能否回答仓库级代码问题?
视频模型是零样本学习者和推理者
用于机械工程分析问题关键求解的N-Plus-1 GPT Agent
Memory-QA:基于多模态记忆的回忆问答
MAPO:混合优势策略优化
Hyper-Bagel:一种用于多模态理解与生成的统一加速框架
预训练数据上的强化学习
视觉运动策略中是否需要本体感觉状态?
Baseer:用于阿拉伯文文档到Markdown OCR的视觉-语言模型
GenExam:跨学科文本到图像测评
Nav-R1:具身场景中的推理与导航
MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展
ARE:扩展Agent环境与评估
DiffusionNFT:基于前向过程的在线扩散强化
TempSamp-R1:面向视频LLM的强化微调有效时间采样
OnePiece:将上下文工程与推理引入工业级级联排序系统
OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入
LIMI:Agent的少即是多
一种模块化融合神经网络方法,用于高效预测蛋白质序列中的多金属结合位点
IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破
直接对齐完整扩散轨迹与细粒度人类偏好
用于药物-药物相互作用预测的多尺度图神经过程与跨药物共注意力机制
GenCAD-3D:基于多模态潜在空间对齐与合成数据集平衡的CAD程序生成