HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
SpatialBoost:通过语言引导推理增强视觉表征
多模态
多模态表征
Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.
VideoDetective:通过外在查询与内在相关性进行线索挖掘以实现长视频理解
视频理解
视觉问答
Ruoliu Yang, Chu Wu, Caifeng Shan, et al.
LongCat-Flash-Prover:通过智能体工具集成强化学习推进原生形式化推理
LLM
推理
Jianing Wang, Jianfei Zhang, Qi Guo, et al.
速度源于简约:一种用于快速音视频生成基础模型的单流架构
通义千问
多模态
SII-GAIR, Sand. ai, Ethan Chern, et al.
Omni-WorldBench:面向以交互为核心的世界模型综合评估
视频生成
3D 生成
Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.
PrismAudio:面向视频到音频生成的分解式思维链与多维奖励机制
音频生成
多模态
Huadai Liu, Kaicheng Luo, Wen Wang, et al.
LeWorldModel:基于像素的稳定端到端联合嵌入预测架构
深度学习
多模态表征
Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.
FlowScene:基于多模态图校正流的风格一致室内场景生成
3D 生成
多模态
Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.
LumosX:将任意身份与其属性关联以实现个性化视频生成
文生视频
扩散模型
Jiazheng Xing, Fei Du, Hangjie Yuan, et al.
面向大语言模型的 Y Combinator:用 λ 演算解决长上下文退化问题
LLM
文本生成
Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.
ProactiveBench:多模态大语言模型主动性基准测试
多模态
视觉问答
Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.
TerraScope:面向对地观测的像素级视觉推理
多模态
视觉问答
Yan Shu, Bin Ren, Zhitong Xiong, et al.
Astrolabe:为蒸馏自回归视频模型引导前向过程强化学习
视频生成
模型训练
Songchun Zhang, Zeyue Xue, Siming Fu, et al.
HopChain:面向可泛化视觉 - 语言推理的多跳数据合成
视觉问答
LLM
Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.
弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer
扩散模型
视频生成
Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.
FASTER:重新思考实时流式视觉语言动作模型
多模态
扩散模型
Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.
3DreamBooth:高保真度以主体为中心的 3D 视频生成模型
3D 生成
文生视频
Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.
SAMA:面向指令驱动视频编辑的因子化语义锚定与运动对齐
视频生成
扩散模型
Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.
生成模型感知空间:释放隐式3D先验以增强场景理解
3D 生成
视频生成
Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.
高效推理与平衡思维
LLM
推理
Yulin Li, Tengyao Tu, Li Ding, et al.
行动前审视:增强面向视觉 - 语言 - 动作模型的视觉基础表征
多模态
多模态表征
Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.
互补强化学习
强化学习
Agent
Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.
对齐使语言模型具备规范性,而非描述性。
LLM
偏好
Eilam Shapira, Moshe Tennenholtz, Roi Reichart
MosaicMem:用于可控视频世界模型的混合空间记忆机制
视频生成
扩散模型
Wei Yu, Runjia Qian, Yumeng Li, et al.
MetaClaw:仅需对话——一种在开放环境中进行元学习并持续演化的 Agent
LLM
Agent
Peng Xia, Jianwen Chen, Xinyu Yang, et al.
Video-CoE:通过事件链强化视频事件预测
视频理解
多模态
Qile Su, Jing Tang, Rui Chen, et al.
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
语音生成
多模态
Jiaxuan Liu, Yang Xiang, Han Zhao, et al.
大语言模型的上下文水印
LLM
文本生成
Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.
WorldCam:以相机姿态为统一几何表示的交互式自回归3D游戏世界
扩散模型
视频生成
Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.
揭秘视频推理
视频生成
扩散模型
Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.
Kinema4D:面向时空具身模拟的运动学四维世界建模
具身智能
视频生成
Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.
Qianfan-OCR:一种面向文档智能的统一端到端模型
文档理解
OCR
Daxiang Dong, Mingming Zheng, Dong Xu, et al.
1
2
3
4
5
57
SpatialBoost:通过语言引导推理增强视觉表征
多模态
多模态表征
Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.
VideoDetective:通过外在查询与内在相关性进行线索挖掘以实现长视频理解
视频理解
视觉问答
Ruoliu Yang, Chu Wu, Caifeng Shan, et al.
LongCat-Flash-Prover:通过智能体工具集成强化学习推进原生形式化推理
LLM
推理
Jianing Wang, Jianfei Zhang, Qi Guo, et al.
速度源于简约:一种用于快速音视频生成基础模型的单流架构
通义千问
多模态
SII-GAIR, Sand. ai, Ethan Chern, et al.
Omni-WorldBench:面向以交互为核心的世界模型综合评估
视频生成
3D 生成
Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.
PrismAudio:面向视频到音频生成的分解式思维链与多维奖励机制
音频生成
多模态
Huadai Liu, Kaicheng Luo, Wen Wang, et al.
LeWorldModel:基于像素的稳定端到端联合嵌入预测架构
深度学习
多模态表征
Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.
FlowScene:基于多模态图校正流的风格一致室内场景生成
3D 生成
多模态
Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.
LumosX:将任意身份与其属性关联以实现个性化视频生成
文生视频
扩散模型
Jiazheng Xing, Fei Du, Hangjie Yuan, et al.
面向大语言模型的 Y Combinator:用 λ 演算解决长上下文退化问题
LLM
文本生成
Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.
ProactiveBench:多模态大语言模型主动性基准测试
多模态
视觉问答
Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.
TerraScope:面向对地观测的像素级视觉推理
多模态
视觉问答
Yan Shu, Bin Ren, Zhitong Xiong, et al.
Astrolabe:为蒸馏自回归视频模型引导前向过程强化学习
视频生成
模型训练
Songchun Zhang, Zeyue Xue, Siming Fu, et al.
HopChain:面向可泛化视觉 - 语言推理的多跳数据合成
视觉问答
LLM
Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.
弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer
扩散模型
视频生成
Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.
FASTER:重新思考实时流式视觉语言动作模型
多模态
扩散模型
Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.
3DreamBooth:高保真度以主体为中心的 3D 视频生成模型
3D 生成
文生视频
Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.
SAMA:面向指令驱动视频编辑的因子化语义锚定与运动对齐
视频生成
扩散模型
Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.
生成模型感知空间:释放隐式3D先验以增强场景理解
3D 生成
视频生成
Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.
高效推理与平衡思维
LLM
推理
Yulin Li, Tengyao Tu, Li Ding, et al.
行动前审视:增强面向视觉 - 语言 - 动作模型的视觉基础表征
多模态
多模态表征
Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.
互补强化学习
强化学习
Agent
Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.
对齐使语言模型具备规范性,而非描述性。
LLM
偏好
Eilam Shapira, Moshe Tennenholtz, Roi Reichart
MosaicMem:用于可控视频世界模型的混合空间记忆机制
视频生成
扩散模型
Wei Yu, Runjia Qian, Yumeng Li, et al.
MetaClaw:仅需对话——一种在开放环境中进行元学习并持续演化的 Agent
LLM
Agent
Peng Xia, Jianwen Chen, Xinyu Yang, et al.
Video-CoE:通过事件链强化视频事件预测
视频理解
多模态
Qile Su, Jing Tang, Rui Chen, et al.
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
语音生成
多模态
Jiaxuan Liu, Yang Xiang, Han Zhao, et al.
大语言模型的上下文水印
LLM
文本生成
Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.
WorldCam:以相机姿态为统一几何表示的交互式自回归3D游戏世界
扩散模型
视频生成
Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.
揭秘视频推理
视频生成
扩散模型
Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.
Kinema4D:面向时空具身模拟的运动学四维世界建模
具身智能
视频生成
Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.
Qianfan-OCR:一种面向文档智能的统一端到端模型
文档理解
OCR
Daxiang Dong, Mingming Zheng, Dong Xu, et al.
1
2
3
4
5
57