自动语音识别 ASR
ASR 是把语音信号转换为文本的 AI 模型任务,常用于会议转录、字幕生成、语音输入和音频检索。
#tech / ai
#type / concept
#status / growing
#resource / asr
[!info] related notes
- 所属 MOC: AI 模型能力 MOC, AI MOC
- 前置概念: transformer
- 并列概念: 文本转语音 TTS
- 相关资源: OpenAI Whisper
- 应用场景: hyprnote, 智能摘要系统
自动语音识别 ASR
一句话定义
ASR 是 Automatic Speech Recognition 的缩写,指把语音音频转换为文本的模型任务。
核心机制 / 工作原理
ASR 的输入是音频波形或音频特征,输出通常是文本、时间戳、语言识别结果或分段转录结果。
一个常见链路是:
- 采集或上传音频。
- 做格式统一、降噪、音量归一化和静音检测。
- 通过 VAD 或固定窗口把长音频切成片段。
- 调用 ASR 模型识别每段语音。
- 合并文本、修正标点、补时间戳和说话人信息。
模型本身只解决“声音到文字”的核心转换,真实系统效果还强依赖前处理、切片、后处理和评估。
最小例子 / 最小场景
会议录音进入后端后,系统先把音频切片,再用 OpenAI Whisper 一类 ASR 模型转成逐段文本,最后交给 LLM 做摘要和行动项提取。
这个场景里,ASR 只负责转录;摘要、任务提取和知识整理属于后续文本处理任务。
常见使用场景
- 会议记录和访谈转录
- 视频字幕和播客转写
- 语音输入法和语音助手
- 客服录音质检
- 音频内容搜索和归档
边界与易混淆点
- ASR 不等于 TTS:ASR 是语音到文本,TTS 是文本到语音。
- ASR 不等于 LLM:ASR 负责听写,LLM 更常负责摘要、理解、结构化和生成。
- ASR 不自动解决说话人分离:speaker diarization 通常是独立能力或额外模块。
- ASR 质量不只取决于模型大小:录音质量、噪声、口音、术语表、分片策略都会影响结果。
最短记忆方式
ASR 是“让机器听写”的模型任务,核心是把音频转成可继续处理的文本。