HyperAI超神经

HyperAI

机器学习术语表:探索关键AI和ML概念的定义与解释

强化学习框架 Mem-𝛼

Mem-𝛼 在多种基准测试中相较于现有的记忆增强智能体基线取得了显著改进。

7 个月前

搜索自博弈 Search Self-play

SSP 展现了自博弈作为可扩展且数据高效的智能体 LLM 训练范式的潜力。

7 个月前

多智能体工作流程 CudaForge

CudaForge 是一个简单有效且低成本的用于 CUDA 内核生成和优化的多智能体工作流程。

7 个月前

分形水印 FractalForensics

FractalForensics 在常见图像处理操作和 Deepfake 操作上有较好的鲁棒性和脆弱性。

7 个月前

ScaleNet

ScaleNet 是一种通过权重共享扩展预训练视觉 Transformer（ViT）的新方法。

7 个月前

FlashMoBA

FlashMoBA 使理论上最优的小块尺寸变得实用，在 GPU 上实现高达 14.7 倍的加速。

7 个月前

思维链劫持 Chain-of-Thought Hijacking

CoT Hijacking 是一种新的越狱攻击方式，其中良性推理系统性地削弱了拒绝行为。

7 个月前

布局控制框架 InstanceAssemble

InstanceAssemble 在多模态条件下推动了高质量且可控的图像生成。

7 个月前

布局控制 Layout-to-Image

Layout-to-Image 为图像生成提供了灵活的控制机制。

7 个月前

HiPO 混合策略优化框架

HiPO 用于自适应 LLM 推理，主要包括混合数据构建和混合强化学习。

7 个月前

SERES 语义感知稀疏视图重建框架

作为一个新颖的语义感知框架，用于从稀疏视图中重建 3D 模型。

7 个月前

代理熵平衡策略优化 AEPO

AEPO 专注于在高熵工具调用指导下平衡和合理化策略扩展分支和策略更新。

7 个月前

协同扩散-自回归范式 SDAR

SDAR 确立了一种新的实用语言建模范式，统一了自回归和扩散的互补优势。

7 个月前

Cache-to-Cache（C2C）

C2C 通过转换和融合模型间的键值（KV）缓存，实现直接的语义交流。

7 个月前

CapRL 描述强化学习

CapRL 能有效训练模型生成更通用和准确的图像描述。

7 个月前

赫胥黎–哥德尔机 Huxley–Gödel Machine

在编码代理环境下近似 Gödel Machine，并通过具有自适应调度的 Thompson 采样来指导扩展。

7 个月前

DiDi-Instruct 后训练方法

首个成功将分布匹配蒸馏应用于基于 MDM 的文本生成，并在少步语言序列生成方面创下纪录的框架。

7 个月前

多编程语言 MoE 架构：MultiPL-MoE

MultiPL-MoE 是后预训练阶段扩展低源编程语言的一种有效方法。

7 个月前

门控注意力 Gated Attention

通义千问团队系统地研究了门控机制在标准 softmax 注意力中的作用。

7 个月前

Lancelot 框架

Lancelot 框架将全同态加密融入 BRFL 以实现严格的隐私保护。

7 个月前

靶向迁移式对抗攻击框架 FOA-Attack

联合对齐全局和局部特征，有效引导对抗样本朝向目标特征分布并增强可迁移性。

7 个月前

感受野 Receptive Field

感受野是理解视觉信息处理的重要概念，为设计、分析和优化视觉模型提供参考。

7 个月前

潜在扩散模型 SVG

SVG 实现了更快的扩散训练、高效的少步采样以及生成质量的提升。

7 个月前

多阶段强化学习框架 RewardMap

RewardMap 提升了多模态大语言模型在结构化视觉任务中的能力。

7 个月前

Command Palette

百科

Command Palette

百科

强化学习框架 Mem-𝛼

搜索自博弈 Search Self-play

多智能体工作流程 CudaForge

分形水印 FractalForensics

ScaleNet

FlashMoBA

思维链劫持 Chain-of-Thought Hijacking

布局控制框架 InstanceAssemble

布局控制 Layout-to-Image

HiPO 混合策略优化框架

SERES 语义感知稀疏视图重建框架

代理熵平衡策略优化 AEPO

协同扩散-自回归范式 SDAR

Cache-to-Cache（C2C）

CapRL 描述强化学习

赫胥黎–哥德尔机 Huxley–Gödel Machine

DiDi-Instruct 后训练方法

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

Lancelot 框架

靶向迁移式对抗攻击框架 FOA-Attack

感受野 Receptive Field

潜在扩散模型 SVG

多阶段强化学习框架 RewardMap

Command Palette

百科

强化学习框架 Mem-𝛼

搜索自博弈 Search Self-play

多智能体工作流程 CudaForge

分形水印 FractalForensics

ScaleNet

FlashMoBA

思维链劫持 Chain-of-Thought Hijacking

布局控制框架 InstanceAssemble

布局控制 Layout-to-Image

HiPO 混合策略优化框架

SERES 语义感知稀疏视图重建框架

代理熵平衡策略优化 AEPO

协同扩散-自回归范式 SDAR

Cache-to-Cache（C2C）

CapRL 描述强化学习

赫胥黎–哥德尔机 Huxley–Gödel Machine

DiDi-Instruct 后训练方法

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

Lancelot 框架

靶向迁移式对抗攻击框架 FOA-Attack

感受野 Receptive Field

潜在扩散模型 SVG

多阶段强化学习框架 RewardMap

强化学习框架 Mem-𝛼

搜索自博弈 Search Self-play

多智能体工作流程 CudaForge

分形水印 FractalForensics

ScaleNet

FlashMoBA

思维链劫持 Chain-of-Thought Hijacking

布局控制框架 InstanceAssemble

布局控制 Layout-to-Image

HiPO 混合策略优化框架

SERES 语义感知稀疏视图重建框架

代理熵平衡策略优化 AEPO

协同扩散-自回归范式 SDAR

Cache-to-Cache（C2C）

CapRL 描述强化学习

赫胥黎–哥德尔机 Huxley–Gödel Machine

DiDi-Instruct 后训练方法

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

Lancelot 框架

靶向迁移式对抗攻击框架 FOA-Attack

感受野 Receptive Field

潜在扩散模型 SVG

多阶段强化学习框架 RewardMap

强化学习框架 Mem-𝛼

搜索自博弈 Search Self-play