Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

UniCorn:通过自生成监督实现自我提升的统一多模态模型

LTX-2:高效联合音视频基础模型































UniCorn:通过自生成监督实现自我提升的统一多模态模型

LTX-2:高效联合音视频基础模型






























SciEvalKit:面向科学通用智能的开源评估工具包
MOSS 语音转写与说话人分离:支持说话人分离的精准语音转写
InfiniDepth:基于神经隐式场的任意分辨率与细粒度深度估计
代理型AI的适应性调整
大型视频规划器实现可泛化的机器人控制
InfiniteVGGT:面向无限数据流的视觉几何基底Transformer
GARDO:防止奖励劫持的扩散模型强化方法
VAR RL 正确实现:应对视觉自回归生成中的异步策略冲突
DreamID-V:通过扩散Transformer弥合图像到视频的鸿沟实现高保真人脸替换
NextFlow:统一的序列建模激活多模态理解与生成
K-EXAONE 技术报告
Hunger Game Debate:多智能体系统中过度竞争的涌现
使用评分标准奖励训练AI协作者科学家
AdaGaR:面向动态场景重建的自适应Gabor表示
驯服幻觉:通过反事实视频生成提升MLLMs的视频理解能力
SenseNova-MARS:通过强化学习赋能多模态智能体推理与搜索
Avatar Forcing:面向自然对话的实时交互式头部虚拟形象生成
NeoVerse:利用真实场景单目视频增强4D世界模型
Youtu-Agent:基于自动化生成与混合策略优化的Agent生产率提升
IQuest-Coder-V1 技术报告
递归语言模型
FlowBlending:面向快速高保真视频生成的阶段感知多模型采样
Dream2Flow:基于3D物体流连接视频生成与开放世界操控
扩散LLM中的离散性作用
DiffThinker:面向生成式多模态推理的扩散模型
动态大概念模型:自适应语义空间中的潜在推理
基于超图记忆的多步RAG在长上下文复杂关系建模中的优化
人工智能与大脑的交汇:从认知神经科学到自主智能体的记忆系统
开放性推理的扩展以预测未来
GaMO:面向稀疏视图三维重建的几何感知多视角扩散外推
SciEvalKit:面向科学通用智能的开源评估工具包
MOSS 语音转写与说话人分离:支持说话人分离的精准语音转写
InfiniDepth:基于神经隐式场的任意分辨率与细粒度深度估计
代理型AI的适应性调整
大型视频规划器实现可泛化的机器人控制
InfiniteVGGT:面向无限数据流的视觉几何基底Transformer
GARDO:防止奖励劫持的扩散模型强化方法
VAR RL 正确实现:应对视觉自回归生成中的异步策略冲突
DreamID-V:通过扩散Transformer弥合图像到视频的鸿沟实现高保真人脸替换
NextFlow:统一的序列建模激活多模态理解与生成
K-EXAONE 技术报告
Hunger Game Debate:多智能体系统中过度竞争的涌现
使用评分标准奖励训练AI协作者科学家
AdaGaR:面向动态场景重建的自适应Gabor表示
驯服幻觉:通过反事实视频生成提升MLLMs的视频理解能力
SenseNova-MARS:通过强化学习赋能多模态智能体推理与搜索
Avatar Forcing:面向自然对话的实时交互式头部虚拟形象生成
NeoVerse:利用真实场景单目视频增强4D世界模型
Youtu-Agent:基于自动化生成与混合策略优化的Agent生产率提升
IQuest-Coder-V1 技术报告
递归语言模型
FlowBlending:面向快速高保真视频生成的阶段感知多模型采样
Dream2Flow:基于3D物体流连接视频生成与开放世界操控
扩散LLM中的离散性作用
DiffThinker:面向生成式多模态推理的扩散模型
动态大概念模型:自适应语义空间中的潜在推理
基于超图记忆的多步RAG在长上下文复杂关系建模中的优化
人工智能与大脑的交汇:从认知神经科学到自主智能体的记忆系统
开放性推理的扩展以预测未来
GaMO:面向稀疏视图三维重建的几何感知多视角扩散外推