HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
多模态指代分割:一项综述
多模态
多模态表征
Henghui Ding, Song Tang, Shuting He, et al.
3D-R1:提升3D VLMs中的推理能力以实现统一场景理解
视觉问答
推理
Ting Huang, Zeyu Zhang, Hao Tang
SWE-Exp:基于经验的软件问题解决
Agent
LLM
Silin Chen, Shaoxin Lin, Xiaodong Gu, et al.
PixNerd:像素神经场扩散
扩散模型
图像生成
Shuai Wang, Ziteng Gao, Chenhui Zhu, et al.
超越固定长度:用于扩散大语言模型的可变长度去噪
LLM
扩散模型
Jinsong Li, Xiaoyi Dong, Yuhang Zang, et al.
认知内核-Pro:面向深度研究Agent与Agent基础模型训练的框架
Agent
LLM
Tianqing Fang, Zhisong Zhang, Xiaoyang Wang, et al.
协同生成人工智能:迈向增强型、参与式的生命周期
人机交互
算法
Rashid Mushkani, Hugo Berard, Toumadher Ammar, et al.
iLRM:一种迭代式大规模3D重建模型
Transformer
3D 生成
Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, et al.
villa-X:提升视觉-语言-动作模型中的潜在动作建模
机器人技术
视频理解
Xiaoyu Chen, Hangxing Wei, Pushi Zhang, et al.
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
基准
数据集
Chengqian Ma, Wei Tao, Yiwen Guo
RecGPT 技术报告
LLM
检索增强生成
Chao Yi, Dian Chen, Gaoyang Guo, et al.
Phi-Ground 技术报告:推进GUI接地中的感知能力
多模态
图像理解
Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, et al.
Seed-Prover:自动化定理证明中的深度与广度推理
LLM
推理
Luoxin Chen, Jinming Gu, Liankai Huang, et al.
野外环境下的合成语音检测:少即是多
语音生成
合成
Nicholas Andrews, Matthew Wiesner, Sanjeev Khudanpur, et al.
基于方案感知与全局的ReLU选择:部分MILP在DNN验证中强势回归
深度学习
卷积神经网络
Yuke Liao, Blaise Genest, Kuldeep Meel, et al.
思维链自指导:为推理与非推理任务构建高质量的合成提示
LLM
推理
Ping Yu, Jack Lanchantin, Tianlu Wang, et al.
指向性音视频分割中的全模态表达与推理
多模态
视频理解
Kaining Ying, Henghui Ding, Guanquan Jie, et al.
基于弱监督的无人机影像未见域车辆检测器自适应方法
目标检测
遥感
Xiao Fang, Minhyek Jeon, Zheyang Qin, et al.
VL-Cogito:面向高级多模态推理的渐进式课程强化学习
强化学习
推理
Ruifeng Yuan, Chenghao Xiao, Sicong Leng, et al.
Falcon-H1:一类混合头语言模型,重新定义效率与性能
LLM
Transformer
Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, et al.
BANG:通过生成式爆炸动力学划分3D资产
3D 生成
3D 模型
Longwen Zhang, Qixuan Zhang, Haoran Jiang, et al.
ScreenCoder:通过模块化多模态Agent推进前端自动化中的视觉到代码生成
代码生成
多模态
Yilei Jiang, Yaozhi Zheng, Yuxuan Wan, et al.
MIRepNet:一种基于EEG的运动想象分类的流水线与基础模型
深度学习
卷积神经网络
Dingkun Liu, Zhu Chen, Jingwei Luo, et al.
ChemDFM-R:一种融合原子化化学知识的化学推理LLM
LLM
推理
Zihan Zhao, Bo Chen, Ziping Wan, et al.
X-Omni:强化学习让离散自回归图像生成模型重放光彩
图像生成
扩散模型
Zigang Geng, Yibing Wang, Yeyao Ma, et al.
HunyuanWorld 1.0:从文本或像素生成沉浸式、可探索且可交互的3D世界
3D 生成
3D 模型
HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, et al.
AlphaEarth Foundations:一种基于稀疏标签数据的准确高效全球地图构建嵌入场模型
AI for Science
遥感
Christopher F. Brown, Michal R. Kazmierski, Valerie J. Pasquarella, et al.
基于可解释深度学习模型的长时序ENSO预测
深度学习
卷积神经网络
Qi Chen, Yinghao Cui, Guobin Hong, et al.
OmniArch:面向科学计算的基础模型构建
AI for Science
Transformer
Tianyu Chen, Haoyi Zhou, Ying Li, et al.
UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理
监督式微调
多模态
Shuquan Lian, Yuhang Wu, Jia Ma, et al.
DualSG:一种双流显式语义引导的多变量时间序列预测框架
LLM
自然语言处理
Kuiye Ding, Fanda Fan, Yao Wang, et al.
当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述
Transformer
计算机视觉
Kele Shao, Keda Tao, Kejia Zhang, et al.
1
36
37
38
39
40
41
42
49
多模态指代分割:一项综述
多模态
多模态表征
Henghui Ding, Song Tang, Shuting He, et al.
3D-R1:提升3D VLMs中的推理能力以实现统一场景理解
视觉问答
推理
Ting Huang, Zeyu Zhang, Hao Tang
SWE-Exp:基于经验的软件问题解决
Agent
LLM
Silin Chen, Shaoxin Lin, Xiaodong Gu, et al.
PixNerd:像素神经场扩散
扩散模型
图像生成
Shuai Wang, Ziteng Gao, Chenhui Zhu, et al.
超越固定长度:用于扩散大语言模型的可变长度去噪
LLM
扩散模型
Jinsong Li, Xiaoyi Dong, Yuhang Zang, et al.
认知内核-Pro:面向深度研究Agent与Agent基础模型训练的框架
Agent
LLM
Tianqing Fang, Zhisong Zhang, Xiaoyang Wang, et al.
协同生成人工智能:迈向增强型、参与式的生命周期
人机交互
算法
Rashid Mushkani, Hugo Berard, Toumadher Ammar, et al.
iLRM:一种迭代式大规模3D重建模型
Transformer
3D 生成
Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, et al.
villa-X:提升视觉-语言-动作模型中的潜在动作建模
机器人技术
视频理解
Xiaoyu Chen, Hangxing Wei, Pushi Zhang, et al.
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
基准
数据集
Chengqian Ma, Wei Tao, Yiwen Guo
RecGPT 技术报告
LLM
检索增强生成
Chao Yi, Dian Chen, Gaoyang Guo, et al.
Phi-Ground 技术报告:推进GUI接地中的感知能力
多模态
图像理解
Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, et al.
Seed-Prover:自动化定理证明中的深度与广度推理
LLM
推理
Luoxin Chen, Jinming Gu, Liankai Huang, et al.
野外环境下的合成语音检测:少即是多
语音生成
合成
Nicholas Andrews, Matthew Wiesner, Sanjeev Khudanpur, et al.
基于方案感知与全局的ReLU选择:部分MILP在DNN验证中强势回归
深度学习
卷积神经网络
Yuke Liao, Blaise Genest, Kuldeep Meel, et al.
思维链自指导:为推理与非推理任务构建高质量的合成提示
LLM
推理
Ping Yu, Jack Lanchantin, Tianlu Wang, et al.
指向性音视频分割中的全模态表达与推理
多模态
视频理解
Kaining Ying, Henghui Ding, Guanquan Jie, et al.
基于弱监督的无人机影像未见域车辆检测器自适应方法
目标检测
遥感
Xiao Fang, Minhyek Jeon, Zheyang Qin, et al.
VL-Cogito:面向高级多模态推理的渐进式课程强化学习
强化学习
推理
Ruifeng Yuan, Chenghao Xiao, Sicong Leng, et al.
Falcon-H1:一类混合头语言模型,重新定义效率与性能
LLM
Transformer
Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, et al.
BANG:通过生成式爆炸动力学划分3D资产
3D 生成
3D 模型
Longwen Zhang, Qixuan Zhang, Haoran Jiang, et al.
ScreenCoder:通过模块化多模态Agent推进前端自动化中的视觉到代码生成
代码生成
多模态
Yilei Jiang, Yaozhi Zheng, Yuxuan Wan, et al.
MIRepNet:一种基于EEG的运动想象分类的流水线与基础模型
深度学习
卷积神经网络
Dingkun Liu, Zhu Chen, Jingwei Luo, et al.
ChemDFM-R:一种融合原子化化学知识的化学推理LLM
LLM
推理
Zihan Zhao, Bo Chen, Ziping Wan, et al.
X-Omni:强化学习让离散自回归图像生成模型重放光彩
图像生成
扩散模型
Zigang Geng, Yibing Wang, Yeyao Ma, et al.
HunyuanWorld 1.0:从文本或像素生成沉浸式、可探索且可交互的3D世界
3D 生成
3D 模型
HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, et al.
AlphaEarth Foundations:一种基于稀疏标签数据的准确高效全球地图构建嵌入场模型
AI for Science
遥感
Christopher F. Brown, Michal R. Kazmierski, Valerie J. Pasquarella, et al.
基于可解释深度学习模型的长时序ENSO预测
深度学习
卷积神经网络
Qi Chen, Yinghao Cui, Guobin Hong, et al.
OmniArch:面向科学计算的基础模型构建
AI for Science
Transformer
Tianyu Chen, Haoyi Zhou, Ying Li, et al.
UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理
监督式微调
多模态
Shuquan Lian, Yuhang Wu, Jia Ma, et al.
DualSG:一种双流显式语义引导的多变量时间序列预测框架
LLM
自然语言处理
Kuiye Ding, Fanda Fan, Yao Wang, et al.
当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述
Transformer
计算机视觉
Kele Shao, Keda Tao, Kejia Zhang, et al.
1
36
37
38
39
40
41
42
49