Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

GenRecal:从大模型到小模型的重新校准生成视觉-语言模型

ProtoReasoning:原型作为LLM中可泛化推理的基础































GenRecal:从大模型到小模型的重新校准生成视觉-语言模型

ProtoReasoning:原型作为LLM中可泛化推理的基础






























Sekai:一个面向世界探索的视频数据集
基于数据驱动的二次与天然胶凝前驱体材料筛选
QFFT,无问题微调以适应推理
大语言模型能否生成高质量的算法问题测试用例? TestCase-Eval:故障覆盖率和暴露的系统性评估
AceReason-Nemotron 1.1:通过SFT和RL协同效应推进数学和代码推理
Stream-Omni:基于大型语言-视觉-语音模型的同步多模态交互
通过强化学习实现高效的医学VIE
扩展测试时计算以适应LLM代理
迭代转录因子筛选可实现从人类诱导多能干细胞(iPSC)中快速生成类小胶质细胞
TaskCraft:代理任务的自动化生成
等一下,我们不需要“等待”!移除思考标记可提高推理效率
Ego-R1:用于超长第一人称视频推理的工具链思维
DeepResearch Bench:深度研究代理的全面基准测试
科学家的首次测试:通过感知、理解和推理探究MLLM的认知能力
MiniMax-M1:使用闪电注意力高效扩展测试时计算
聚苯乙烯纳米塑料通过外泌体递送的微小RNA改变细菌与宿主的相互作用,从而破坏肠道微环境。
超越同质注意力:通过傅里叶近似KV缓存实现内存高效的LLM模型
高质量数据集和可靠的评估方法用于交错图像-文本生成
SwS:强化学习中用于LLM推理的自我感知弱点驱动问题合成
LiveCodeBench Pro:奥林匹克奖牌得主如何评价大型语言模型在竞争编程中的表现?
扩散二象性
政策遵从代理的有效红队测试
通过跨模态注意力机制实现对齐的新视角图像和几何合成
电反应的统一可微学习
VRBench:长叙事视频多步推理的基准测试集
AniMaker:基于MCTS驱动的多智能体自动动画故事生成
基于文本的图像修复与扩散模型
Magistral
SWE-Factory:您的自动化问题解决训练数据和评估基准工厂
ReasonMed:一个由多代理生成的370K数据集,用于推进医学推理
Sekai:一个面向世界探索的视频数据集
基于数据驱动的二次与天然胶凝前驱体材料筛选
QFFT,无问题微调以适应推理
大语言模型能否生成高质量的算法问题测试用例? TestCase-Eval:故障覆盖率和暴露的系统性评估
AceReason-Nemotron 1.1:通过SFT和RL协同效应推进数学和代码推理
Stream-Omni:基于大型语言-视觉-语音模型的同步多模态交互
通过强化学习实现高效的医学VIE
扩展测试时计算以适应LLM代理
迭代转录因子筛选可实现从人类诱导多能干细胞(iPSC)中快速生成类小胶质细胞
TaskCraft:代理任务的自动化生成
等一下,我们不需要“等待”!移除思考标记可提高推理效率
Ego-R1:用于超长第一人称视频推理的工具链思维
DeepResearch Bench:深度研究代理的全面基准测试
科学家的首次测试:通过感知、理解和推理探究MLLM的认知能力
MiniMax-M1:使用闪电注意力高效扩展测试时计算
聚苯乙烯纳米塑料通过外泌体递送的微小RNA改变细菌与宿主的相互作用,从而破坏肠道微环境。
超越同质注意力:通过傅里叶近似KV缓存实现内存高效的LLM模型
高质量数据集和可靠的评估方法用于交错图像-文本生成
SwS:强化学习中用于LLM推理的自我感知弱点驱动问题合成
LiveCodeBench Pro:奥林匹克奖牌得主如何评价大型语言模型在竞争编程中的表现?
扩散二象性
政策遵从代理的有效红队测试
通过跨模态注意力机制实现对齐的新视角图像和几何合成
电反应的统一可微学习
VRBench:长叙事视频多步推理的基准测试集
AniMaker:基于MCTS驱动的多智能体自动动画故事生成
基于文本的图像修复与扩散模型
Magistral
SWE-Factory:您的自动化问题解决训练数据和评估基准工厂
ReasonMed:一个由多代理生成的370K数据集,用于推进医学推理