OpenAI Whisper

OpenAI 推出的语音识别模型，适合转录、翻译、语言识别和时间戳生成等语音转文本场景。

#tech / ai #type / resource #status / growing #resource / whisper #media / tool

[!info] related notes

所属 MOC: AI MOC

相关概念: 自动语音识别 ASR, transformer, transformers

应用场景: smart-summary-system, hyprnote

OpenAI Whisper

它是什么

Whisper 是 OpenAI 推出的语音识别模型，能把音频转成文本，也支持翻译、语言识别和时间戳生成。

核心特点

端到端 Transformer 编码器-解码器结构
对多语言、噪声和口音有较强鲁棒性
支持转录、翻译、语言识别和时间戳输出
有多种模型尺寸，精度和成本可以权衡

常见使用场景

会议记录和访谈整理
视频字幕和播客转录
客服质检和录音检索
语音输入的预处理链路

一个常见落地流程

先把音频转成统一采样率和声道
做 VAD 或分片，减少无效静音处理
调用 Whisper 做识别或翻译
合并片段结果并做后处理
需要时补时间戳、术语替换和结果校验

和相关笔记的边界

[[openai-whisper]] 关注语音识别模型和落地注意点
[[automatic-speech-recognition-asr]] 关注 ASR 这类模型任务的通用边界
[[hyprnote]] 关注会议笔记产品整条能力链路
[[smart-summary-system]] 关注一个具体摘要系统的技术方案组合

实战里常见注意点

中文场景常需要手动指定语言
长音频最好先切片再并行处理
结果质量通常和音频清洗、VAD、后处理强相关
Web 场景要额外考虑流式上传、任务队列和结果回写

最短记忆方式

Whisper 是通用型语音转文本模型，关键在于前处理、切片和后处理流程配合。

AI MOC