OpenAI Whisper
OpenAI 推出的语音识别模型,适合转录、翻译、语言识别和时间戳生成等语音转文本场景。
#tech / ai
#type / resource
#status / growing
#resource / whisper
#media / tool
[!info] related notes
- 所属 MOC: AI MOC
- 相关概念: 自动语音识别 ASR, transformer, transformers
- 应用场景: smart-summary-system, hyprnote
OpenAI Whisper
它是什么
Whisper 是 OpenAI 推出的语音识别模型,能把音频转成文本,也支持翻译、语言识别和时间戳生成。
核心特点
- 端到端 Transformer 编码器-解码器结构
- 对多语言、噪声和口音有较强鲁棒性
- 支持转录、翻译、语言识别和时间戳输出
- 有多种模型尺寸,精度和成本可以权衡
常见使用场景
- 会议记录和访谈整理
- 视频字幕和播客转录
- 客服质检和录音检索
- 语音输入的预处理链路
一个常见落地流程
- 先把音频转成统一采样率和声道
- 做 VAD 或分片,减少无效静音处理
- 调用 Whisper 做识别或翻译
- 合并片段结果并做后处理
- 需要时补时间戳、术语替换和结果校验
和相关笔记的边界
[[openai-whisper]]关注语音识别模型和落地注意点[[automatic-speech-recognition-asr]]关注 ASR 这类模型任务的通用边界[[hyprnote]]关注会议笔记产品整条能力链路[[smart-summary-system]]关注一个具体摘要系统的技术方案组合
实战里常见注意点
- 中文场景常需要手动指定语言
- 长音频最好先切片再并行处理
- 结果质量通常和音频清洗、VAD、后处理强相关
- Web 场景要额外考虑流式上传、任务队列和结果回写
最短记忆方式
Whisper 是通用型语音转文本模型,关键在于前处理、切片和后处理流程配合。