Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

WebWeaver:通过动态大纲构建网络规模证据以支持开放式深度研究

大型语言模型中的Glitch Tokens:分类体系与有效检测































WebWeaver:通过动态大纲构建网络规模证据以支持开放式深度研究

大型语言模型中的Glitch Tokens:分类体系与有效检测






























REFRAG:重新思考基于RAG的解码
对齐后引导:通过统一潜在引导适应视觉-语言-动作模型
SubLIME:基于秩相关性预测的子集选择用于数据高效的LLM评估
上下文混合用于长视频生成
MusicSwarm:用于音乐创作的生物启发式智能
LEGO:张量应用的时空加速器生成与优化
LazyDrag:通过显式对应关系实现多模态扩散Transformer上的稳定拖拽编辑
SearchInstruct:通过基于检索的指令数据集构建增强领域自适应
可解释的物理推理与视觉-语言模型的性能分类体系
InternScenes:一个大规模可模拟室内场景数据集,具备真实布局
UI-S1:通过半在线强化学习推进GUI自动化
OmniWorld:用于4D世界建模的多领域多模态数据集
LAVa:基于层级的KV缓存淘汰与动态预算分配
基于概率结构融合的世界建模
VStyle:一个基于口语指令的语音风格适配基准
HANRAG:启发式高精度抗噪声多跳问答增强生成
InfGen:一种与分辨率无关的可扩展图像合成范式
X-Part:高保真且结构一致的形状分解
收益递减的错觉:LLM中长时 horizon 执行的度量
IntrEx:用于建模教育对话中参与度的数据集
Youtu-GraphRAG:面向图检索增强型复杂推理的垂直统一Agent
SceneSplat:基于视觉-语言预训练的高斯点云场景理解
虚拟 Agent 经济
视觉语言模型中视觉定位的理解研究
Kling-Avatar:用于级联长时长头像动画合成的多模态指令接地
机器学习LLM:在数百万个合成表格预测任务上持续预训练语言模型以实现上下文内机器学习
EchoX:通过回声训练缓解语音到语音LLM中的声学-语义鸿沟
SimpleVLA-RL:通过强化学习扩展VLA训练
VLA-Adapter:一种高效的小规模视觉-语言-动作模型范式
scSiameseClu:一种用于解释单细胞RNA测序数据的孪生聚类框架
REFRAG:重新思考基于RAG的解码
对齐后引导:通过统一潜在引导适应视觉-语言-动作模型
SubLIME:基于秩相关性预测的子集选择用于数据高效的LLM评估
上下文混合用于长视频生成
MusicSwarm:用于音乐创作的生物启发式智能
LEGO:张量应用的时空加速器生成与优化
LazyDrag:通过显式对应关系实现多模态扩散Transformer上的稳定拖拽编辑
SearchInstruct:通过基于检索的指令数据集构建增强领域自适应
可解释的物理推理与视觉-语言模型的性能分类体系
InternScenes:一个大规模可模拟室内场景数据集,具备真实布局
UI-S1:通过半在线强化学习推进GUI自动化
OmniWorld:用于4D世界建模的多领域多模态数据集
LAVa:基于层级的KV缓存淘汰与动态预算分配
基于概率结构融合的世界建模
VStyle:一个基于口语指令的语音风格适配基准
HANRAG:启发式高精度抗噪声多跳问答增强生成
InfGen:一种与分辨率无关的可扩展图像合成范式
X-Part:高保真且结构一致的形状分解
收益递减的错觉:LLM中长时 horizon 执行的度量
IntrEx:用于建模教育对话中参与度的数据集
Youtu-GraphRAG:面向图检索增强型复杂推理的垂直统一Agent
SceneSplat:基于视觉-语言预训练的高斯点云场景理解
虚拟 Agent 经济
视觉语言模型中视觉定位的理解研究
Kling-Avatar:用于级联长时长头像动画合成的多模态指令接地
机器学习LLM:在数百万个合成表格预测任务上持续预训练语言模型以实现上下文内机器学习
EchoX:通过回声训练缓解语音到语音LLM中的声学-语义鸿沟
SimpleVLA-RL:通过强化学习扩展VLA训练
VLA-Adapter:一种高效的小规模视觉-语言-动作模型范式
scSiameseClu:一种用于解释单细胞RNA测序数据的孪生聚类框架