一、教程简介

DeepSeek-OCR 是深度求索公司于 2025 年 10 月发布的模型，是通过图像对长上下文进行压缩的可行性初步研究。 DeepEncoder 是核心引擎，旨在在高分辨率输入下保持低激活量，同时实现高压缩比，以确保视觉 token 的数量处于可控且优化的范围内。实验表明，当文本 token 数量不超过视觉 token 的 10 倍（即压缩比 < 10×）时，模型能达到 97% 的解码（OCR）精度。即便在 20× 的压缩比下，OCR 准确率仍约为 60% 。这对历史文献的长上下文压缩以及大模型的记忆衰退机制等研究方向展现了相当的前景。相关论文成果为 DeepSeek-OCR: Contexts Optical Compression 。

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

标签

OCR

RTX 5090

论文 URL

2510.18234

许可证

MIT

GitHub

deepseek-ai/DeepSeek-OCR23.5k

一、教程简介

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可上传图片，解析文字

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

使用步骤

3. 输出结果

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下：

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

计算机视觉大模型开发

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

标签

OCR

RTX 5090

论文 URL

2510.18234

许可证

MIT

GitHub

deepseek-ai/DeepSeek-OCR23.5k

一、教程简介

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可上传图片，解析文字

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

使用步骤

3. 输出结果

四、交流探讨

引用信息

本项目引用信息如下：

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

计算机视觉大模型开发

DeepSeek-OCR 2 视觉因果流

5 个月前

HunyuanOCR：腾讯混元端到端 OCR

7 个月前

Nanonets-OCR2-3B：更准确的解释复杂文档中的视觉元素

8 个月前

OCRFlux-3B：智能文本识别工具包

8 个月前

RolmOCR 跨场景极速 OCR 开源识别新基准

1 年前

GOT-OCR-2.0 全球首款通用端到端 OCR 模型

2 年前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DeepSeek-OCR：「视觉压缩」替代传统字符识别

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DeepSeek-OCR：「视觉压缩」替代传统字符识别

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

教程概览

相关教程

DeepSeek-OCR 2 视觉因果流

HunyuanOCR：腾讯混元端到端 OCR

Nanonets-OCR2-3B：更准确的解释复杂文档中的视觉元素

OCRFlux-3B：智能文本识别工具包

RolmOCR 跨场景极速 OCR 开源识别新基准

GOT-OCR-2.0 全球首款通用端到端 OCR 模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DeepSeek-OCR：「视觉压缩」替代传统字符识别

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

教程概览

相关教程

DeepSeek-OCR 2 视觉因果流

HunyuanOCR：腾讯混元端到端 OCR

Nanonets-OCR2-3B：更准确的解释复杂文档中的视觉元素

OCRFlux-3B：智能文本识别工具包

RolmOCR 跨场景极速 OCR 开源识别新基准

GOT-OCR-2.0 全球首款通用端到端 OCR 模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

DeepSeek-OCR 2 视觉因果流

HunyuanOCR：腾讯混元端到端 OCR

Nanonets-OCR2-3B：更准确的解释复杂文档中的视觉元素

OCRFlux-3B：智能文本识别工具包

RolmOCR 跨场景极速 OCR 开源识别新基准

GOT-OCR-2.0 全球首款通用端到端 OCR 模型

相关教程

DeepSeek-OCR 2 视觉因果流

HunyuanOCR：腾讯混元端到端 OCR

Nanonets-OCR2-3B：更准确的解释复杂文档中的视觉元素

OCRFlux-3B：智能文本识别工具包

RolmOCR 跨场景极速 OCR 开源识别新基准

GOT-OCR-2.0 全球首款通用端到端 OCR 模型