Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

推理能力的语音评估:诊断模态诱导的性能差距

MarsRL:通过代理流水线并行化的强化学习推进多Agent推理系统































推理能力的语音评估:诊断模态诱导的性能差距

MarsRL:通过代理流水线并行化的强化学习推进多Agent推理系统






























虚拟宽度网络
AIonopedia:一个由 LLM Agent 驱动的多模态学习系统,用于离子液体的发现
UI2CodeN:一种支持测试时可扩展的交互式UI到代码生成的视觉语言模型
GGBench:面向统一多模态模型的几何生成推理基准
WEAVE:释放并基准测试上下文交错理解与生成能力
DoPE:去噪旋转位置嵌入
BRFL:一种基于区块链的拜占庭鲁棒联邦学习模型
基于指数-高斯混合网络的视频观看时长预测多粒度分布建模
SAC Flow:通过速度重参数化序列建模实现基于流策略的样本高效强化学习
针对闭源MLLM的对抗攻击通过特征最优对齐
Hail to the Thief:探索去中心化GRPO中的攻击与防御
大语言模型的黑盒策略蒸馏
UniVA:面向开源下一代视频通用智能体的通用视频代理
PAN:一种通用、可交互且长时程世界模拟的世界模型
潜空间的一小步,像素空间的一大步:适用于扩散模型的快速潜空间上采样适配器
YOLOv13:基于超图增强的自适应视觉感知实时目标检测
MonkeyOCR:基于结构识别关系三元组范式的文档解析
更安全的生成式AI的共识采样
Argus:面向端到端ADS的韧性导向安全保证框架
基于世界模型的策略优化用于视觉-语言-动作模型
LoopTool:用于鲁棒LLM工具调用的数据-训练闭环
超越事实检索:基于生成语义空间的RAG情景记忆
TiDAR:在扩散中思考,在自回归中表达
Time-to-Move:通过双时钟去噪实现无需训练的运动控制视频生成
Lumine:在3D开放世界中构建通用Agent的开源方案
从1,000个词生成一张图像:通过结构化描述增强文本到图像生成
KLASS:基于KL引导的掩码扩散模型快速推理
基于人类示范的计算机使用Agent定位
Wasm:构建结构化阿拉伯语交错多模态语料库的流水线
对话系统中的自适应多智能体响应优化
虚拟宽度网络
AIonopedia:一个由 LLM Agent 驱动的多模态学习系统,用于离子液体的发现
UI2CodeN:一种支持测试时可扩展的交互式UI到代码生成的视觉语言模型
GGBench:面向统一多模态模型的几何生成推理基准
WEAVE:释放并基准测试上下文交错理解与生成能力
DoPE:去噪旋转位置嵌入
BRFL:一种基于区块链的拜占庭鲁棒联邦学习模型
基于指数-高斯混合网络的视频观看时长预测多粒度分布建模
SAC Flow:通过速度重参数化序列建模实现基于流策略的样本高效强化学习
针对闭源MLLM的对抗攻击通过特征最优对齐
Hail to the Thief:探索去中心化GRPO中的攻击与防御
大语言模型的黑盒策略蒸馏
UniVA:面向开源下一代视频通用智能体的通用视频代理
PAN:一种通用、可交互且长时程世界模拟的世界模型
潜空间的一小步,像素空间的一大步:适用于扩散模型的快速潜空间上采样适配器
YOLOv13:基于超图增强的自适应视觉感知实时目标检测
MonkeyOCR:基于结构识别关系三元组范式的文档解析
更安全的生成式AI的共识采样
Argus:面向端到端ADS的韧性导向安全保证框架
基于世界模型的策略优化用于视觉-语言-动作模型
LoopTool:用于鲁棒LLM工具调用的数据-训练闭环
超越事实检索:基于生成语义空间的RAG情景记忆
TiDAR:在扩散中思考,在自回归中表达
Time-to-Move:通过双时钟去噪实现无需训练的运动控制视频生成
Lumine:在3D开放世界中构建通用Agent的开源方案
从1,000个词生成一张图像:通过结构化描述增强文本到图像生成
KLASS:基于KL引导的掩码扩散模型快速推理
基于人类示范的计算机使用Agent定位
Wasm:构建结构化阿拉伯语交错多模态语料库的流水线
对话系统中的自适应多智能体响应优化