当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

4 个月前

在多模态大模型从「能用」迈向「好用」的关键节点，参数规模、推理成本和部署门槛，正变得与模型能力同等重要。 OpenBMB 最新推出的 MiniCPM-o-4.5，仅用 9B 参数便构建起 Omni 全模态能力，在轻量化与高性能之间找到了更优解。

MiniCPM-o-4.5 采用统一架构实现文本与图像等多模态输入的联合建模与生成输出，强调跨模态对齐能力与推理效率的协同优化。 9B 级别的模型规模，使其在主流消费级 GPU 上即可完成推理部署，相比大规模闭源模型，在显存占用与响应延迟上更具工程友好性。

目前，HyperAI 超神经官网已上线了「MiniCPM-o-4_5：面壁智能开源的全双工全模态模型」，快来试试吧~

在线使用：https://go.hyper.ai/iOGzO

2 月 24 日-2 月 27 日，hyper.ai 官网更新速览：

* 优质公共数据集：3 个

* 优质教程精选：14 个

* 热门百科词条：5 条

访问官网：hyper.ai

公共数据集精选

1. THINGS-EEG 脑电图数据集

THINGS-EEG 是由美国国立卫生研究院（NIH）国家心理健康研究所、德国马克斯·普朗克学会人类认知与脑科学研究所联合吉森大学医学院等机构发布的一个面向物体认知研究的脑电图数据集，记录了 50 名受试者在观看物体图像时的脑电活动（EEG），用于分析物体加工的时间动态与认知表征。

直接使用：https://go.hyper.ai/kqejl

2. THINGS-MEG 脑磁图数据集

THINGS-MEG 是由美国国立卫生研究院国家心理健康研究所、德国马克斯·普朗克学会人类认知与脑科学研究所联合吉森大学医学院等机构发布的一个面向物体认知研究的脑磁图数据集，记录了受试者观看物体图像时的毫秒级脑电磁活动，用于分析物体加工过程的时间动态。

直接使用：https://go.hyper.ai/eBKWI

3. THINGS-fMRI 功能磁共振成像数据集

THINGS-fMRI 是由美国国立卫生研究院国家心理健康研究所、德国马克斯·普朗克学会人类认知与脑科学研究所联合吉森大学医学院等机构发布的一个面向物体认知研究的高密度功能性磁共振成像数据集，旨在系统刻画人脑对现实世界物体的视觉与语义表征。

直接使用：https://go.hyper.ai/CRbiA

公共教程精选

本周汇总了 3 类优质公共教程:

* OCR 教程: 4 个

* 多模态教程: 6 个

* 大语言模型教程: 4 个

OCR 教程

1.GLM-OCR 轻量级多模态 OCR 识别系统

GLM-OCR 是由智谱 AI 于 2026 年 2 月开源的 0.9B 轻量级多模态 OCR 模型，专注于复杂文档场景下的高精度文本识别与结构化解析。该模型以「小尺寸、高精度、易部署」为核心优势，基于 GLM-V 编码器 – 解码器多模态架构，融合自研 CogViT 视觉编码器与 RLHF 优化，在 OmniDocBench V1.5 评测榜单中以 94.62 分登顶 SOTA，性能接近 Gemini-3-Pro，适用于办公文档解析、教育科研公式识别、政务金融票据核验、代码片段提取等多类场景。

在线运行：https://go.hyper.ai/kgb3n

2.PaddleOCR-VL-1.5：基于 vLLM 的本地 OCR

PaddleOCR-VL-1.5 是 PaddlePaddle 团队发布的 PaddleOCR 系列的多模态 OCR 模型之一，面向复杂文档场景（票据、合同、论文、扫描件等）提供更强的文字识别与版面理解能力。本教程使用 vLLM 的 OpenAI 兼容接口对接该模型，实现上传图片– 返回识别结果的完整链路。凭借其 0.9B 的参数量，在 OmniDocBench v1.5 上达到了 94.5% 的新一代精度。

在线运行：https://go.hyper.ai/cea6x

3.LightOnOCR-2-1B 轻量级高性能端到端 OCR 模型

LightOnOCR-2-1B 是由 LightOn AI 推出的最新一代端到端视觉语言模型。作为 LightOnOCR 系列中的旗舰级版本，它在一个紧凑的架构中统一了文档理解与文本生成功能，拥有 10 亿参数，能够在消费级显卡上运行。该模型采用 Vision-Language Transformer 架构，并引入了 RLVR 训练技术，实现了极高的识别准确率与推理速度，专为需要处理复杂文档、手写体及 LaTeX 公式的应用场景设计。

在线运行：https://go.hyper.ai/cLSj5

4.DeepSeek-OCR 2 视觉因果流

DeepSeek-OCR 2 是由 DeepSeek 团队推出的第二代 OCR 模型，通过引入 DeepEncoder V2 架构，实现从固定扫描到语义推理的范式转变。模型采用因果流查询和双流注意力机制，能动态重排视觉 Token，更精准地还原复杂文档的自然阅读逻辑。在 OmniDocBench v1.5 评测中，模型综合得分达到 91.09%，较前代提升显著，同时显著降低了 OCR 识别结果的重复率，为未来构建全模态编码器提供新路径。

在线运行：https://go.hyper.ai/iOGzO

多模态教程

1.MiniCPM-o-4.5：面壁智能开源的全双工全模态模型

MiniCPM-o-4.5 是由 Facewall Intelligence 和清华大学自然语言处理实验室于 2026 年 2 月开源的 9B 参数全模态旗舰模型。采用 siglip2 、 whisper 、 cosyvoice2 、 qwen3-8b 的端到端架构。作为业界首个支持「实时自由对话」的模式，它实现了全双工交互– 允许用户同时看、听、说，摆脱了传统的回合制「对讲机」模式。该模型具有领先的视觉理解能力、超仿人语音生成能力和语音克隆能力，支持主动交互和实时流媒体处理，并可在边缘设备上运行。它兼容各种国产芯片，如 ascend 和 Hygon，并可通过 llama.cpp 和 vLLM 等框架高效部署。

在线运行：https://go.hyper.ai/iOGzO

2.使用 vLLM-Omni 部署 Qwen-Image-Edit

Qwen-Image-Edit 是阿里巴巴的团队发布的一款功能多样的图像编辑模型。该模型具备语义与外观编辑的双重能力，既能进行低层次的视觉外观编辑（如添加、删除或修改元素），又能进行高层次的视觉语义编辑（如创建 IP 、对象旋转、风格转换等）。模型支持对中文和英文双语文本的精准编辑，能够在保留原字体、大小和风格的同时，对图像中的文本进行修改。

在线运行：https://go.hyper.ai/4w6XA

3.Step3-VL-10B：多模态视觉理解与图文对话

Step3-VL-10B 是 StepFun 团队发布的开源视觉语言基础模型，专为多模态理解与复杂推理任务而设计。该模型旨在重新界定效率、推理能力和视觉理解质量之间的平衡，适用于受限参数规模内的多模态模型。尽管其参数规模较小，但该模型在视觉感知、复杂推理和人类指令对齐方面表现出卓越性能。它在多个基准测试中始终优于同等规模的模型，在某些任务上可与参数规模大 10 到 20 倍的模型相媲美。

在线运行：https://go.hyper.ai/RqTTW

4. 使用 vLLM-Omni 部署 Qwen-Image-2512

Qwen-Image-2512 是 Qwen-Image 系列中的一款基础性文本转图像模型，主要面向高质量图像生成以及复杂多模态内容表达场景。重点在于提升生成图像的整体真实感和可用性。肖像生成效果显著提升了自然度，面部结构、皮肤纹理以及光影关系更加接近于真实的摄影效果。在自然场景中，模型能够生成更精细的地貌纹理、植被细节以及诸如动物毛发之类的高频信息。其文本生成与排版能力也得到了提升，从而能够更稳定地呈现可读文本和复杂的字体样式。

在线运行：https://go.hyper.ai/JMmhs

5.TurboDiffusion：图像与文本驱动视频生成系统

TurboDiffusion 是由清华大学团队于 2025 年 12 月开发的一种高效视频扩散生成系统。该系统基于用于高阶蒸馏的 Wan2.1 架构，旨在解决大规模视频模型中推理速度缓慢及计算资源消耗量高等痛点问题，从而实现以最少步骤生成高质量视频的目标。

在线运行：https://go.hyper.ai/VvyVZ

6.Personaplex-7B-v1：实时对话与角色定制语音接口

PersonaPlex-7B-v1 是英伟达发布的 70 亿参数多模态个性化对话模型。它专为实时语音/文本交互、长程人设一致性模拟及多模态感知任务而设计，旨在提供一个具有毫秒级响应速度的沉浸式角色扮演与多模态交互演示系统。

在线运行：https://go.hyper.ai/ndoj0

大语言模型教程

1.llama.cpp+Open WebUI 部署 Qwen3-VL-8B-Instruct-GGUF

Qwen3-VL-8B-Instruct-GGUF 提供多种精确的语言模型变体和专用的 MMPROJ 视觉编码器。这些型号兼容 llama.cpp 和 Ollama 等工具，非常适合多种硬件，包括 CPU 、 NVIDIA GPU 、苹果硅片和英特尔 GPU 。 Qwen3-VL-8B-Instruct-GGUF 在 GGUF 格式中明确区分语言和视觉部分。这使得开发者能够灵活选择特定硬件的量化级别，即使在资源有限的 CPU 环境中也能实现可接受的响应时间，同时在配备 GPU 的系统上释放更多性能。

在线运行：https://go.hyper.ai/EKryC

2.Jacobi Forcing：快速且精确的因果并行解码技术

Jacobi Forcing 是一种由 Hao AI 实验室引入的新型训练技术，它能够将大型语言模型（LLMs）转换为原生因果并行解码器。通过训练模型使其沿着自身的雅可比解码轨迹处理有噪声的未来块，该技术能够解决 AR 到扩散模型的匹配问题，同时保持因果自回归主干结构的完整性。

在线运行：https://go.hyper.ai/fIad4

3.vLLM+Open WebUI 部署 GLM-4.7-Flash

GLM-4.7-Flash 是一款轻量化多模态推理模型，它兼顾了高性能与高吞吐量，原生支持链式思维（CoT）、工具调用和代理功能。 GLM-4.7-Flash 采用了专家混合（MoE）架构，利用稀疏激活机制显著降低每次推理的计算成本，同时保持大型模型的表达能力。

在线运行：https://go.hyper.ai/a2IN3

4.vLLM+Open WebUI 部署 LFM2.5-1.2B-Thinking

LFM2.5-1.2B-Thinking 是边缘优化混合型架构模型。作为 LFM2.5 系列中专门针对逻辑推理优化的版本，它在一个紧凑的架构中统一了长序列处理和高效推理功能。该模型拥有 12 亿个参数，能够流畅运行于消费级显卡乃至边缘设备上。该模型采用创新的混合架构（线性动态系统+注意力），实现了极高的内存效率和吞吐量，专为需要实时进行设备上推理而不牺牲智能的场景而设计。

在线运行：https://go.hyper.ai/1XTsV

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD 教程】，入群探讨各类技术问题、分享应用效果~

社区文章解读

1. 20 秒完成 15 天预报，欧洲科研团队提出高分辨率区域海洋预报模型 SeaCast

不规则的海陆分布、复杂的侧边界条件，以及对垂直分层变量精细刻画的需求，使得现有全球尺度海洋 AI 模型难以直接适配区域任务。针对于此，芬兰赫尔辛基大学、地中海气候变化研究中心与意大利萨伦托大学组成的联合研究团队，研发了专为区域海洋预报设计的图神经网络模型 SeaCast 。其在单块 GPU 上仅需 20 秒，即可完成 1/24° 网格下 18 个垂向层次的 15 天预报。

查看完整报道：https://go.hyper.ai/kRXnE

2. 预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

盐–溶剂化学支撑着大多数锂离子电池体系中的电解质行为，但其理性设计受到巨大化学空间的限制，该空间涵盖了无数种组合以及非线性的结构–性能耦合关系，而稀疏且分布不均衡的实验数据进一步加剧了这一问题，阻碍了模型的泛化能力。自康奈尔大学的研究团队开发了一种稳健、可解释且数据高效的框架 SCAN，用于盐–溶剂化学的建模与解释。该框架能够有效处理长尾数据，并捕捉盐–溶剂配方的完整谱系。

查看完整报道：https://go.hyper.ai/OrHIt

3. 验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

准确高效的电池循环寿命预测，是下一代电池研发与规模化应用的关键，直接决定其可靠性、安全性与全生命周期使用成本。近日，来自密歇根大学等研究机构的专家创新性地提出了「发现学习（Discovery Learning，DL）」的科学机器学习方法，将主动学习、物理约束学习和零样本学习有机融合，构建出一个类人推理闭环学习框架。在保守假设条件下，与工业级电池寿命验证流程相比，发现学习可实现 98% 的评估时间节省和 95% 的能耗节省，将验证周期从约 1,333 天缩短至 33 天。

查看完整报道：https://go.hyper.ai/28W2g

4. 论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

过去一年，AI 与科学研究的关系正在发生一场深刻而安静的转变。 2025 年，AI for Science 不再只是零散的技术应用，而是演化为一条清晰、系统、可复用的科研创新路径，AI 不再只是工具，而是正在成为科研范式的一部分。 HyperAI 超神经整理了医疗健康、材料化学、气象研究、天文学等多个方向的论文方便不同背景的读者快速检索与回顾。

查看完整报道：https://go.hyper.ai/FLJGD