Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

MobileCLIP2:提升多模态强化训练

AI-AI 审美协作:显式符号学意识与涌现语法发展































MobileCLIP2:提升多模态强化训练

AI-AI 审美协作:显式符号学意识与涌现语法发展






























凝视心灵:用于rPPG与健康生物标志物估计的多视角视频数据集
预测下一个标记的顺序可提升语言建模性能
MIDAS:通过实时自回归视频生成实现的多模态交互式数字人合成
离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码
通过推理分解的自奖励视觉-语言模型
超越转录:自动语音识别中的机制可解释性
CODA:面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制
WebSight:一种面向视觉的鲁棒网络智能体架构
UltraMemV2:面向120B参数的内存网络,具备卓越的长上下文学习能力
Hermes 4 技术报告
OmniHuman-1.5:通过认知模拟为虚拟化身注入主动思维
VoxHammer:无需训练的原生3D空间中精确且连贯的3D编辑
CMPhysBench:用于评估大语言模型在凝聚态物理领域性能的基准测试
TreePO:基于启发式树建模弥合策略优化与有效性及推理效率之间的差距
Nemotron-CC-Math:一个1330亿token规模的高质量数学预训练数据集
理解工具集成推理
Spacer:面向工程化科学灵感
超越记忆:通过循环、记忆与测试时计算扩展实现推理深度延伸
VibeVoice 技术报告
MMTok:面向视觉语言模型高效推理的多模态覆盖最大化
MV-RAG:检索增强的多视角扩散模型
利用多模态机器学习将金属有机框架合成与应用相连接
自适应传输系统中的模型上下文协议:一项综述
多集体的算法集体行动
OpenCUA:面向计算机使用智能体的开源基础
空间策略:基于空间感知建模与推理引导视觉-运动机器人操作
Jet-Nemotron:基于后神经架构搜索的高效语言模型
CRISP:通过稀疏自编码器实现的持久概念遗忘
弱监督可操作性定位中的选择性对比学习
EgoTwin:第一人称视角下的身体与视图梦境
凝视心灵:用于rPPG与健康生物标志物估计的多视角视频数据集
预测下一个标记的顺序可提升语言建模性能
MIDAS:通过实时自回归视频生成实现的多模态交互式数字人合成
离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码
通过推理分解的自奖励视觉-语言模型
超越转录:自动语音识别中的机制可解释性
CODA:面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制
WebSight:一种面向视觉的鲁棒网络智能体架构
UltraMemV2:面向120B参数的内存网络,具备卓越的长上下文学习能力
Hermes 4 技术报告
OmniHuman-1.5:通过认知模拟为虚拟化身注入主动思维
VoxHammer:无需训练的原生3D空间中精确且连贯的3D编辑
CMPhysBench:用于评估大语言模型在凝聚态物理领域性能的基准测试
TreePO:基于启发式树建模弥合策略优化与有效性及推理效率之间的差距
Nemotron-CC-Math:一个1330亿token规模的高质量数学预训练数据集
理解工具集成推理
Spacer:面向工程化科学灵感
超越记忆:通过循环、记忆与测试时计算扩展实现推理深度延伸
VibeVoice 技术报告
MMTok:面向视觉语言模型高效推理的多模态覆盖最大化
MV-RAG:检索增强的多视角扩散模型
利用多模态机器学习将金属有机框架合成与应用相连接
自适应传输系统中的模型上下文协议:一项综述
多集体的算法集体行动
OpenCUA:面向计算机使用智能体的开源基础
空间策略:基于空间感知建模与推理引导视觉-运动机器人操作
Jet-Nemotron:基于后神经架构搜索的高效语言模型
CRISP:通过稀疏自编码器实现的持久概念遗忘
弱监督可操作性定位中的选择性对比学习
EgoTwin:第一人称视角下的身体与视图梦境