HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
EpochX:构建涌现智能体文明的基础设施
Agent
LLM
Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.
TAPS:面向推测采样的任务感知提议分布
LLM
文本生成
Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.
具有推理轨迹的长尾驾驶场景:KITScenes 长尾数据集
自动驾驶
多模态
Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.
RealChart2Code:基于真实数据与多任务评估推进图表到代码生成研究
代码生成
多模态
Jiajun Zhang, Yuying Li, Zhixun Li, et al.
Trace2Skill:将轨迹局部经验蒸馏为可迁移的 Agent 技能
LLM
Agent
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.
PackForcing:短视频训练足以支持长视频采样与长上下文推理
视频生成
扩散模型
Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.
ShotStream:面向交互式叙事的流式多镜头视频生成
文生视频
视频生成
Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.
视而不见,心却不忘:面向动态视频世界模型的混合记忆机制
视频生成
目标跟踪
Kaijin Chen, Dingkang Liang, Xin Zhou, et al.
BeSafe-Bench:揭示功能化环境中具身智能体的行为安全风险
Agent
多模态
Yuxuan Li, Yi Lin, Peng Wang, et al.
世界推理竞技场
Agent
基准
Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.
MSA:面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制
检索增强生成
LLM
Yu Chen, Runkai Chen, Sheng Yi, et al.
Voxtral TTS
语音生成
音频生成
Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.
RealRestorer:面向基于大规模图像编辑模型的通用真实世界图像复原
扩散模型
图生图
Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.
Calibri:通过参数高效校准增强 Diffusion Transformer
扩散模型
文生图
Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.
Intern-S1-Pro:万亿级科学多模态基础模型
多模态
AI for Science
Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.
PixelSmile:迈向细粒度面部表情编辑
扩散模型
图生图
Jiabin Hua, Hengyuan Xu, Aojie Li, et al.
Claudini:通过自动研究发掘针对 LLMs 的最先进对抗攻击算法
LLM
DeepSeek
Alexander Panfilov, Peter Romov, Igor Shilov, et al.
AutoHarness:通过自动合成代码桩提升 LLM Agents 性能
LLM
代码生成
Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.
GameplayQA:用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架
视频理解
视觉问答
Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.
为何自蒸馏(有时)会削弱 LLMs 的推理能力?
LLM
推理
Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.
UI-Voyager:一种基于失败经验进行自我演进的 GUI Agent
多模态
Agent
Zichuan Lin, Feiyu Liu, Yijun Yang, et al.
T-MAP:基于轨迹感知的进化搜索对 LLM Agent 进行红队测试
LLM
Agent
Hyomin Lee, Sangwoo Park, Yumin Choi, et al.
CUA-Suite:面向计算机使用 Agent 的大规模人工标注视频演示数据集
视频理解
多模态
Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.
EVA:面向端到端视频 Agent 的高效强化学习
视频理解
多模态
Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.
Foveated Diffusion:高效的空间自适应图像与视频生成
扩散模型
图像生成
Brian Chao, Lior Yariv, Howard Xiao, et al.
Ego2Web:基于第一人称视角视频的 Web Agent 基准测试
Agent
视频理解
Shoubin Yu, Lei Shu, Antoine Yang, et al.
从静态模板到动态运行时图:LLM Agent 工作流优化综述
LLM
Agent
Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.
SpecEyes:通过推测性感知与规划加速代理式多模态LLM
多模态
Agent
Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.
DA-Flow:基于 Diffusion 模型的退化感知光流估计
扩散模型
视频处理
Jaewon Min, Jaeeun Lee, Yeji Choi, et al.
PEARL:个性化流式视频理解模型
视频理解
多模态
Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.
WildWorld:面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集
视频生成
动作识别
Zhen Li, Zian Meng, Shuwei Shi, et al.
MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染
OCR
扩散模型
Hejun Dong, Junbo Niu, Bin Wang, et al.
1
2
3
4
57
EpochX:构建涌现智能体文明的基础设施
Agent
LLM
Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.
TAPS:面向推测采样的任务感知提议分布
LLM
文本生成
Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.
具有推理轨迹的长尾驾驶场景:KITScenes 长尾数据集
自动驾驶
多模态
Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.
RealChart2Code:基于真实数据与多任务评估推进图表到代码生成研究
代码生成
多模态
Jiajun Zhang, Yuying Li, Zhixun Li, et al.
Trace2Skill:将轨迹局部经验蒸馏为可迁移的 Agent 技能
LLM
Agent
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.
PackForcing:短视频训练足以支持长视频采样与长上下文推理
视频生成
扩散模型
Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.
ShotStream:面向交互式叙事的流式多镜头视频生成
文生视频
视频生成
Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.
视而不见,心却不忘:面向动态视频世界模型的混合记忆机制
视频生成
目标跟踪
Kaijin Chen, Dingkang Liang, Xin Zhou, et al.
BeSafe-Bench:揭示功能化环境中具身智能体的行为安全风险
Agent
多模态
Yuxuan Li, Yi Lin, Peng Wang, et al.
世界推理竞技场
Agent
基准
Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.
MSA:面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制
检索增强生成
LLM
Yu Chen, Runkai Chen, Sheng Yi, et al.
Voxtral TTS
语音生成
音频生成
Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.
RealRestorer:面向基于大规模图像编辑模型的通用真实世界图像复原
扩散模型
图生图
Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.
Calibri:通过参数高效校准增强 Diffusion Transformer
扩散模型
文生图
Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.
Intern-S1-Pro:万亿级科学多模态基础模型
多模态
AI for Science
Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.
PixelSmile:迈向细粒度面部表情编辑
扩散模型
图生图
Jiabin Hua, Hengyuan Xu, Aojie Li, et al.
Claudini:通过自动研究发掘针对 LLMs 的最先进对抗攻击算法
LLM
DeepSeek
Alexander Panfilov, Peter Romov, Igor Shilov, et al.
AutoHarness:通过自动合成代码桩提升 LLM Agents 性能
LLM
代码生成
Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.
GameplayQA:用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架
视频理解
视觉问答
Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.
为何自蒸馏(有时)会削弱 LLMs 的推理能力?
LLM
推理
Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.
UI-Voyager:一种基于失败经验进行自我演进的 GUI Agent
多模态
Agent
Zichuan Lin, Feiyu Liu, Yijun Yang, et al.
T-MAP:基于轨迹感知的进化搜索对 LLM Agent 进行红队测试
LLM
Agent
Hyomin Lee, Sangwoo Park, Yumin Choi, et al.
CUA-Suite:面向计算机使用 Agent 的大规模人工标注视频演示数据集
视频理解
多模态
Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.
EVA:面向端到端视频 Agent 的高效强化学习
视频理解
多模态
Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.
Foveated Diffusion:高效的空间自适应图像与视频生成
扩散模型
图像生成
Brian Chao, Lior Yariv, Howard Xiao, et al.
Ego2Web:基于第一人称视角视频的 Web Agent 基准测试
Agent
视频理解
Shoubin Yu, Lei Shu, Antoine Yang, et al.
从静态模板到动态运行时图:LLM Agent 工作流优化综述
LLM
Agent
Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.
SpecEyes:通过推测性感知与规划加速代理式多模态LLM
多模态
Agent
Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.
DA-Flow:基于 Diffusion 模型的退化感知光流估计
扩散模型
视频处理
Jaewon Min, Jaeeun Lee, Yeji Choi, et al.
PEARL:个性化流式视频理解模型
视频理解
多模态
Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.
WildWorld:面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集
视频生成
动作识别
Zhen Li, Zian Meng, Shuwei Shi, et al.
MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染
OCR
扩散模型
Hejun Dong, Junbo Niu, Bin Wang, et al.
1
2
3
4
57