HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
InCoder-32B:面向工业场景的代码基础模型
代码生成
LLM
Jian Yang, Wei Zhang, Jiajun Wu, et al.
MiroThinker-1.7 与 H1:迈向基于验证的重型研究 Agent
Agent
推理
MiroMind Team, S. Bai, L. Bing, et al.
HSImul3R:物理在环的人机场景交互重建,生成仿真就绪数据
3D 生成
机器视觉 3D
Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.
深度混合注意力
LLM
Transformer
Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.
注意力残差
LLM
Transformer
Kimi Team, Guangyu Chen, Yu Zhang, et al.
将世界模拟模型锚定于真实世界大都市
图生视频
视频生成
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.
OpenSeeker:通过完全开源训练数据,推动前沿搜索 Agent 的民主化
LLM
Agent
Yuwen Du, Rui Ye, Shuo Tang, et al.
人工智能能够习得科学品味
偏好
LLM
Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.
MM-CondChain:用于视觉推理的深度组合能力程序化验证基准
多模态
视觉问答
Haozhan Shen, Shilin Yan, Hongwei Xue, et al.
视觉 - 语言模型能否破解“三仙归洞”难题?
目标跟踪
视频理解
Tiedong Liu, Wee Sun Lee
OmniForcing:释放实时音视频联合生成能力
多模态
扩散模型
Yaofeng Su, Yuming Li, Zeyue Xue, et al.
daVinci-Env:大规模开源软件工程环境合成
代码生成
Agent
Dayuan Fu, Shenyu Wu, Yunze Wu, et al.
Cheers:解耦图像块细节与语义表示,实现统一的多模态理解与生成
多模态
统一多模态
Yichen Zhang, Da Peng, Zonghao Guo, et al.
LMEB:长程记忆嵌入基准测试
基准
检索增强生成
Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.
DreamVideo-Omni:通过潜在身份强化学习实现全动作控制的多主体视频定制
文生视频
视频生成
Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.
ShotVerse:推动文本驱动多镜头视频创作中的电影级相机控制进展
文生视频
视频生成
Songlin Yang, Zhe Wang, Xuyi Yang, et al.
面向计算机使用智能体的视频奖励建模
视频理解
多模态
Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.
IndexCache:通过跨层索引复用加速稀疏注意力机制
Transformer
LLM
Yushi Bai, Qian Dong, Ting Jiang, et al.
战略导航还是随机搜索?Agent 与人类如何在文档集合中进行推理
智能问答
Agent
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.
Spatial-TTT:基于流式视觉的测试时训练空间智能
视频理解
视频处理
Fangfu Liu, Diankun Wu, Jiawei Chi, et al.
大型语言模型能否跟上节奏?面向持续知识流的在线适应性基准测试
LLM
基准
Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.
ReMix:LLM 微调中 LoRA 混合模型的强化路由机制
监督式微调
模型训练
Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.
大型语言模型中工具使用的上下文强化学习
LLM
强化学习
Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.
MA-EgoQA:基于多具身智能体的第一人称视频问答
视觉问答
视频理解
Kangsan Kim, Yanlai Yang, Suji Kim, et al.
Flash-KMeans:快速且内存高效的精确 K-Means 算法
深度学习
NVIDIA
Shuo Yang, Haocheng Xi, Yilong Zhao, et al.
OpenClaw-RL:仅需对话即可训练任意 Agent
强化学习
Agent
Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.
将视觉语言模型引入赛场:体育领域空间智能基准测试
视觉问答
多模态
Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.
InternVL-U:推动面向理解、推理、生成与编辑的统一多模态模型普及化
多模态
统一多模态
Changyao Tian, Danni Yang, Guanzhou Chen, et al.
MM-Zero:基于零数据自进化的多模型视觉语言模型
多模态
视觉问答
Zongxia Li, Hongyang Du, Chengsong Huang, et al.
思考以唤起:推理如何解锁 LLM 中的参数化知识
LLM
推理
Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.
Omni-Diffusion:基于掩蔽离散扩散的统一多模态理解与生成
扩散模型
统一多模态
Lijiang Li, Zuwei Long, Yunhang Shen, et al.
几何引导的强化学习用于多视角一致的 3D 场景编辑
3D 生成
扩散模型
Jiyuan Wang, Chunyu Lin, Lei Sun, et al.
1
2
3
4
5
6
57
InCoder-32B:面向工业场景的代码基础模型
代码生成
LLM
Jian Yang, Wei Zhang, Jiajun Wu, et al.
MiroThinker-1.7 与 H1:迈向基于验证的重型研究 Agent
Agent
推理
MiroMind Team, S. Bai, L. Bing, et al.
HSImul3R:物理在环的人机场景交互重建,生成仿真就绪数据
3D 生成
机器视觉 3D
Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.
深度混合注意力
LLM
Transformer
Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.
注意力残差
LLM
Transformer
Kimi Team, Guangyu Chen, Yu Zhang, et al.
将世界模拟模型锚定于真实世界大都市
图生视频
视频生成
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.
OpenSeeker:通过完全开源训练数据,推动前沿搜索 Agent 的民主化
LLM
Agent
Yuwen Du, Rui Ye, Shuo Tang, et al.
人工智能能够习得科学品味
偏好
LLM
Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.
MM-CondChain:用于视觉推理的深度组合能力程序化验证基准
多模态
视觉问答
Haozhan Shen, Shilin Yan, Hongwei Xue, et al.
视觉 - 语言模型能否破解“三仙归洞”难题?
目标跟踪
视频理解
Tiedong Liu, Wee Sun Lee
OmniForcing:释放实时音视频联合生成能力
多模态
扩散模型
Yaofeng Su, Yuming Li, Zeyue Xue, et al.
daVinci-Env:大规模开源软件工程环境合成
代码生成
Agent
Dayuan Fu, Shenyu Wu, Yunze Wu, et al.
Cheers:解耦图像块细节与语义表示,实现统一的多模态理解与生成
多模态
统一多模态
Yichen Zhang, Da Peng, Zonghao Guo, et al.
LMEB:长程记忆嵌入基准测试
基准
检索增强生成
Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.
DreamVideo-Omni:通过潜在身份强化学习实现全动作控制的多主体视频定制
文生视频
视频生成
Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.
ShotVerse:推动文本驱动多镜头视频创作中的电影级相机控制进展
文生视频
视频生成
Songlin Yang, Zhe Wang, Xuyi Yang, et al.
面向计算机使用智能体的视频奖励建模
视频理解
多模态
Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.
IndexCache:通过跨层索引复用加速稀疏注意力机制
Transformer
LLM
Yushi Bai, Qian Dong, Ting Jiang, et al.
战略导航还是随机搜索?Agent 与人类如何在文档集合中进行推理
智能问答
Agent
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.
Spatial-TTT:基于流式视觉的测试时训练空间智能
视频理解
视频处理
Fangfu Liu, Diankun Wu, Jiawei Chi, et al.
大型语言模型能否跟上节奏?面向持续知识流的在线适应性基准测试
LLM
基准
Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.
ReMix:LLM 微调中 LoRA 混合模型的强化路由机制
监督式微调
模型训练
Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.
大型语言模型中工具使用的上下文强化学习
LLM
强化学习
Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.
MA-EgoQA:基于多具身智能体的第一人称视频问答
视觉问答
视频理解
Kangsan Kim, Yanlai Yang, Suji Kim, et al.
Flash-KMeans:快速且内存高效的精确 K-Means 算法
深度学习
NVIDIA
Shuo Yang, Haocheng Xi, Yilong Zhao, et al.
OpenClaw-RL:仅需对话即可训练任意 Agent
强化学习
Agent
Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.
将视觉语言模型引入赛场:体育领域空间智能基准测试
视觉问答
多模态
Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.
InternVL-U:推动面向理解、推理、生成与编辑的统一多模态模型普及化
多模态
统一多模态
Changyao Tian, Danni Yang, Guanzhou Chen, et al.
MM-Zero:基于零数据自进化的多模型视觉语言模型
多模态
视觉问答
Zongxia Li, Hongyang Du, Chengsong Huang, et al.
思考以唤起:推理如何解锁 LLM 中的参数化知识
LLM
推理
Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.
Omni-Diffusion:基于掩蔽离散扩散的统一多模态理解与生成
扩散模型
统一多模态
Lijiang Li, Zuwei Long, Yunhang Shen, et al.
几何引导的强化学习用于多视角一致的 3D 场景编辑
3D 生成
扩散模型
Jiyuan Wang, Chunyu Lin, Lei Sun, et al.
1
2
3
4
5
6
57