HyperAIHyperAI

Command Palette

Search for a command to run...

GLM-ASR-Nano 智谱语音识别

An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.

Failed to load notebook details

一、教程简介

GitHub Stars

GLM-ASR-Nano-2512 是智谱 AI(ZhipuAI)于 2024 年 12 月推出的开源语音识别模型,参数规模为 15 亿(1.5B)。它专为应对现实世界的复杂场景而设计,虽然体积小巧,但在多项基准测试中表现优于 OpenAI Whisper V3 。该模型不仅支持标准普通话和英语,更在方言识别和低语 / 微声场景下表现出惊人的鲁棒性。作为一款端侧友好的高性能模型,它采用了先进的训练策略,能够精准捕捉极低音量的语音细节,填补了传统 ASR 模型在方言和复杂声学环境下的空白。例如在嘈杂的会议记录或隐私保护的低语交流中,GLM-ASR-Nano 能够提供极其准确的转写结果。

本教程使用 Gradio + Transformers 部署 GLM-ASR-Nano-2512 作为演示,算力资源采用  单卡 RTX 5090  。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可上传音频或录音进行识别!

若显示 Bad Gateway ,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供