Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

下一视觉粒度生成

4DNeX:轻松实现前馈式4D生成建模































下一视觉粒度生成

4DNeX:轻松实现前馈式4D生成建模






























ComoRAG:一种面向有状态长篇叙述推理的认知启发式记忆组织RAG
用于宽带计算与通信的集成微波神经网络
GTool:基于大语言模型的图增强工具规划
基于机器学习增强的恒电位框架对锂金属-电解质界面枝晶形成的观测
XQuant:通过KV缓存重计算突破LLM推理的内存墙
BeyondWeb:在万亿规模预训练中规模化合成数据的启示
PaperRegister:通过分层注册索引提升细粒度论文检索
DINOv3
SSRL:自搜索强化学习
Thyme:超越图像的思考
用文化知识对多语言多模态LLM进行接地
HiFiTTS-2:一个大规模高带宽语音数据集
CryptoScope:利用大语言模型实现密码逻辑漏洞的自动化检测
医学图谱RAG:通过图谱检索增强生成实现安全的医学大语言模型
Puppeteer:为你的3D模型绑定并动画化
STream3R:基于因果Transformer的可扩展序列3D重建
PRELUDE:一个旨在要求对长上下文进行全局理解与推理的基准
ToonComposer:通过生成式后关键帧技术简化动画制作
NextStep-1:面向大规模连续Token的自回归图像生成
We-Math 2.0:一种用于激励视觉数学推理的多功能MathBook系统
COREVQA:一种众包观察与推理蕴含的视觉问答基准
RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架
GMF-Drive:具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶
看、听、记、思:具备长期记忆的多模态Agent
扩散型LLM可通过离散扩散强制实现快于自回归的推理
AWorld:具有稳定机动性的动态多Agent系统,用于鲁棒的GAIA问题求解
Story2Board:一种无需训练的富有表现力的分镜生成方法
替身:一种轻量级且即插即用的视频生成身份控制方法
Mol-R1:面向分子发现中显式长链思维推理
Llama-Nemotron:高效推理模型
ComoRAG:一种面向有状态长篇叙述推理的认知启发式记忆组织RAG
用于宽带计算与通信的集成微波神经网络
GTool:基于大语言模型的图增强工具规划
基于机器学习增强的恒电位框架对锂金属-电解质界面枝晶形成的观测
XQuant:通过KV缓存重计算突破LLM推理的内存墙
BeyondWeb:在万亿规模预训练中规模化合成数据的启示
PaperRegister:通过分层注册索引提升细粒度论文检索
DINOv3
SSRL:自搜索强化学习
Thyme:超越图像的思考
用文化知识对多语言多模态LLM进行接地
HiFiTTS-2:一个大规模高带宽语音数据集
CryptoScope:利用大语言模型实现密码逻辑漏洞的自动化检测
医学图谱RAG:通过图谱检索增强生成实现安全的医学大语言模型
Puppeteer:为你的3D模型绑定并动画化
STream3R:基于因果Transformer的可扩展序列3D重建
PRELUDE:一个旨在要求对长上下文进行全局理解与推理的基准
ToonComposer:通过生成式后关键帧技术简化动画制作
NextStep-1:面向大规模连续Token的自回归图像生成
We-Math 2.0:一种用于激励视觉数学推理的多功能MathBook系统
COREVQA:一种众包观察与推理蕴含的视觉问答基准
RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架
GMF-Drive:具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶
看、听、记、思:具备长期记忆的多模态Agent
扩散型LLM可通过离散扩散强制实现快于自回归的推理
AWorld:具有稳定机动性的动态多Agent系统,用于鲁棒的GAIA问题求解
Story2Board:一种无需训练的富有表现力的分镜生成方法
替身:一种轻量级且即插即用的视频生成身份控制方法
Mol-R1:面向分子发现中显式长链思维推理
Llama-Nemotron:高效推理模型