Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

基于弱监督的无人机影像未见域车辆检测器自适应方法

VL-Cogito:面向高级多模态推理的渐进式课程强化学习































基于弱监督的无人机影像未见域车辆检测器自适应方法

VL-Cogito:面向高级多模态推理的渐进式课程强化学习






























Falcon-H1:一类混合头语言模型,重新定义效率与性能
BANG:通过生成式爆炸动力学划分3D资产
ScreenCoder:通过模块化多模态Agent推进前端自动化中的视觉到代码生成
MIRepNet:一种基于EEG的运动想象分类的流水线与基础模型
ChemDFM-R:一种融合原子化化学知识的化学推理LLM
X-Omni:强化学习让离散自回归图像生成模型重放光彩
HunyuanWorld 1.0:从文本或像素生成沉浸式、可探索且可交互的3D世界
AlphaEarth Foundations:一种基于稀疏标签数据的准确高效全球地图构建嵌入场模型
基于可解释深度学习模型的长时序ENSO预测
OmniArch:面向科学计算的基础模型构建
UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理
DualSG:一种双流显式语义引导的多变量时间序列预测框架
当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述
SmallThinker:一个为本地部署原生训练的高效大型语言模型家族
重建4D空间智能:一项综述
Rep-MTL:释放表示层任务显著性在多任务学习中的潜力
ARC-Hunyuan-Video-7B:现实世界短视频的结构化视频理解
Agent 强化策略优化
SciToolAgent:一个基于知识图谱的科学Agent,用于多工具集成
规范自校正:通过测试时优化缓解上下文奖励黑客行为
PRIX:从原始图像中学习规划用于端到端自动驾驶
与人工智能聊天:实时视频通信从人类到人工智能的意外转变
MMBench-GUI:面向GUI代理的分层多平台评估框架
深度研究者与测试时扩散
LLM量化几何:GPTQ作为Babai的最近平面算法
MedIQA:一种可扩展的基于提示的医学图像质量评估基础模型
OS-MAP: 计算机使用代理在广度和深度上能走多远?
分层预算策略优化用于自适应推理
《电影导演:面向短片生成》
LAPO:通过长度自适应策略优化内化推理效率
Falcon-H1:一类混合头语言模型,重新定义效率与性能
BANG:通过生成式爆炸动力学划分3D资产
ScreenCoder:通过模块化多模态Agent推进前端自动化中的视觉到代码生成
MIRepNet:一种基于EEG的运动想象分类的流水线与基础模型
ChemDFM-R:一种融合原子化化学知识的化学推理LLM
X-Omni:强化学习让离散自回归图像生成模型重放光彩
HunyuanWorld 1.0:从文本或像素生成沉浸式、可探索且可交互的3D世界
AlphaEarth Foundations:一种基于稀疏标签数据的准确高效全球地图构建嵌入场模型
基于可解释深度学习模型的长时序ENSO预测
OmniArch:面向科学计算的基础模型构建
UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理
DualSG:一种双流显式语义引导的多变量时间序列预测框架
当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述
SmallThinker:一个为本地部署原生训练的高效大型语言模型家族
重建4D空间智能:一项综述
Rep-MTL:释放表示层任务显著性在多任务学习中的潜力
ARC-Hunyuan-Video-7B:现实世界短视频的结构化视频理解
Agent 强化策略优化
SciToolAgent:一个基于知识图谱的科学Agent,用于多工具集成
规范自校正:通过测试时优化缓解上下文奖励黑客行为
PRIX:从原始图像中学习规划用于端到端自动驾驶
与人工智能聊天:实时视频通信从人类到人工智能的意外转变
MMBench-GUI:面向GUI代理的分层多平台评估框架
深度研究者与测试时扩散
LLM量化几何:GPTQ作为Babai的最近平面算法
MedIQA:一种可扩展的基于提示的医学图像质量评估基础模型
OS-MAP: 计算机使用代理在广度和深度上能走多远?
分层预算策略优化用于自适应推理
《电影导演:面向短片生成》
LAPO:通过长度自适应策略优化内化推理效率