HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
GraphLocator:基于图引导的因果推理用于问题定位
推理
算法
Wei Liu, Chao Peng, Pengfei Gao, et al.
评估参数高效方法在RLVR中的应用
强化学习
监督式微调
Qingyu Yin, Yulun Wu, Zhennan Shen, et al.
端到端的测试时训练用于长上下文
Transformer
自然语言处理
Arnuv Tandon, Karan Dalal, Xinhao Li, et al.
DreamOmni3:基于涂鸦的编辑与生成
图像生成
图像修复
Bin Xia, Bohao Peng, Jiyang Liu, et al.
UltraShape 1.0:通过可扩展几何精炼实现高保真3D形状生成
3D 生成
扩散模型
Tanghui Jia, Dongyu Yan, Dehao Hao, et al.
Mimic-Video:面向可泛化机器人控制的视频-动作模型,超越VLAs
机器人技术
具身智能
Jonas Pai, Liam Achenbach, Victoriano Montesinos, et al.
HY-Motion 1.0:面向文本到动作生成的流匹配模型扩展
扩散模型
3D 生成
Yuxin Wen, Qing Shuai, Di Kang, et al.
SurgWorld:通过世界建模从视频中学习外科机器人策略
机器人技术
具身智能
Yufan He, Pengfei Guo, Mengya Xu, et al.
SpotEdit:扩散Transformer中的选择性区域编辑
扩散模型
图像处理
Zhibin Qin, Zhenxiong Tan, Zeqing Wang, et al.
扩散模型洞悉透明性:将视频扩散模型重用于透明物体的深度与法向估计
深度估计
扩散模型
Shaocong Xu, Songlin Wei, Qizhe Wei, et al.
SmartSnap:面向自验证Agent的主动证据获取
Agent
强化学习
Shaofei Cai, Yulei Qin, Haojia Lin, et al.
Yume-1.5:一种文本控制的交互式世界生成模型
文生视频
扩散模型
Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.
LiveTalk:通过改进的自洽蒸馏实现实时多模态交互式视频扩散
扩散模型
视频生成
Ethan Chern, Zhulin Hu, Bohao Tang, et al.
通过辅助损失实现专家与路由器在专家混合模型中的耦合
LLM
算法
Ang Lv, Jin Ma, Yiyuan Ma, et al.
LongFly:基于时空上下文融合的长时程无人机视觉-语言导航
机器人技术
视频理解
Wen Jiang, Li Wang, Kangyao Huang, et al.
注意力并非你所需要的
Transformer
语言
Zhang Chong
SlideTailor:面向科学论文的个性化演示文稿生成
文本生成
人机交互
Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.
InSight-o3:通过泛化视觉搜索赋能多模态基础模型
Agent
多模态表征
Kaican Li, Lewei Yao, Jiannan Wu, et al.
InsertAnywhere:连接4D场景几何与扩散模型以实现逼真的视频物体插入
扩散模型
视频处理
Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.
面向心智地图感知的检索增强生成以提升长上下文理解
检索增强生成
LLM
Yuqing Li, Jiangnan Li, Zheng Lin, et al.
衡量大语言模型中短文本的真实性
智能问答
基准
Jason Wei, Nguyen Karina, Hyung Won Chung, et al.
DeepSearchQA:弥合深度研究Agent的全面性差距
Agent
基准
Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.
MEM1:学习协同记忆与推理以实现高效长时程Agent
强化学习
推理
Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.
AI-Trader:在实时金融市场的自主Agent基准测试
Agent
LLM
Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.
潜在隐式视觉推理
多模态表征
LLM
Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.
LLM人格作为方法基准测试中实地实验的替代方案
基准
机器学习
Enoch Hyunwook Kang
DataFlow:一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架
LLM
检索增强生成
Hao Liang, Xiaochen Ma, Zhou Liu, et al.
HiStream:通过冗余消除流式传输实现高效高分辨率视频生成
视频生成
扩散模型
Haonan Qiu, Shikun Liu, Zijian Zhou, et al.
TokSuite:衡量分词器选择对语言模型行为的影响
Transformer
基准
Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.
Nemotron 3 Nano:面向智能体推理的开源、高效混合专家Mamba-Transformer模型
Transformer
监督式微调
NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.
超越记忆:一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差
多模态
基准
Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.
DreaMontage:任意帧引导的单次视频生成
视频生成
图生视频
Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.
1
13
14
15
16
17
18
19
57
GraphLocator:基于图引导的因果推理用于问题定位
推理
算法
Wei Liu, Chao Peng, Pengfei Gao, et al.
评估参数高效方法在RLVR中的应用
强化学习
监督式微调
Qingyu Yin, Yulun Wu, Zhennan Shen, et al.
端到端的测试时训练用于长上下文
Transformer
自然语言处理
Arnuv Tandon, Karan Dalal, Xinhao Li, et al.
DreamOmni3:基于涂鸦的编辑与生成
图像生成
图像修复
Bin Xia, Bohao Peng, Jiyang Liu, et al.
UltraShape 1.0:通过可扩展几何精炼实现高保真3D形状生成
3D 生成
扩散模型
Tanghui Jia, Dongyu Yan, Dehao Hao, et al.
Mimic-Video:面向可泛化机器人控制的视频-动作模型,超越VLAs
机器人技术
具身智能
Jonas Pai, Liam Achenbach, Victoriano Montesinos, et al.
HY-Motion 1.0:面向文本到动作生成的流匹配模型扩展
扩散模型
3D 生成
Yuxin Wen, Qing Shuai, Di Kang, et al.
SurgWorld:通过世界建模从视频中学习外科机器人策略
机器人技术
具身智能
Yufan He, Pengfei Guo, Mengya Xu, et al.
SpotEdit:扩散Transformer中的选择性区域编辑
扩散模型
图像处理
Zhibin Qin, Zhenxiong Tan, Zeqing Wang, et al.
扩散模型洞悉透明性:将视频扩散模型重用于透明物体的深度与法向估计
深度估计
扩散模型
Shaocong Xu, Songlin Wei, Qizhe Wei, et al.
SmartSnap:面向自验证Agent的主动证据获取
Agent
强化学习
Shaofei Cai, Yulei Qin, Haojia Lin, et al.
Yume-1.5:一种文本控制的交互式世界生成模型
文生视频
扩散模型
Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.
LiveTalk:通过改进的自洽蒸馏实现实时多模态交互式视频扩散
扩散模型
视频生成
Ethan Chern, Zhulin Hu, Bohao Tang, et al.
通过辅助损失实现专家与路由器在专家混合模型中的耦合
LLM
算法
Ang Lv, Jin Ma, Yiyuan Ma, et al.
LongFly:基于时空上下文融合的长时程无人机视觉-语言导航
机器人技术
视频理解
Wen Jiang, Li Wang, Kangyao Huang, et al.
注意力并非你所需要的
Transformer
语言
Zhang Chong
SlideTailor:面向科学论文的个性化演示文稿生成
文本生成
人机交互
Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.
InSight-o3:通过泛化视觉搜索赋能多模态基础模型
Agent
多模态表征
Kaican Li, Lewei Yao, Jiannan Wu, et al.
InsertAnywhere:连接4D场景几何与扩散模型以实现逼真的视频物体插入
扩散模型
视频处理
Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.
面向心智地图感知的检索增强生成以提升长上下文理解
检索增强生成
LLM
Yuqing Li, Jiangnan Li, Zheng Lin, et al.
衡量大语言模型中短文本的真实性
智能问答
基准
Jason Wei, Nguyen Karina, Hyung Won Chung, et al.
DeepSearchQA:弥合深度研究Agent的全面性差距
Agent
基准
Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.
MEM1:学习协同记忆与推理以实现高效长时程Agent
强化学习
推理
Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.
AI-Trader:在实时金融市场的自主Agent基准测试
Agent
LLM
Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.
潜在隐式视觉推理
多模态表征
LLM
Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.
LLM人格作为方法基准测试中实地实验的替代方案
基准
机器学习
Enoch Hyunwook Kang
DataFlow:一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架
LLM
检索增强生成
Hao Liang, Xiaochen Ma, Zhou Liu, et al.
HiStream:通过冗余消除流式传输实现高效高分辨率视频生成
视频生成
扩散模型
Haonan Qiu, Shikun Liu, Zijian Zhou, et al.
TokSuite:衡量分词器选择对语言模型行为的影响
Transformer
基准
Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.
Nemotron 3 Nano:面向智能体推理的开源、高效混合专家Mamba-Transformer模型
Transformer
监督式微调
NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.
超越记忆:一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差
多模态
基准
Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.
DreaMontage:任意帧引导的单次视频生成
视频生成
图生视频
Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.
1
13
14
15
16
17
18
19
57