自动语音识别 ASR

ASR 是把语音信号转换为文本的 AI 模型任务,常用于会议转录、字幕生成、语音输入和音频检索。

#tech / ai #type / concept #status / growing #resource / asr

[!info] related notes

自动语音识别 ASR

一句话定义

ASR 是 Automatic Speech Recognition 的缩写,指把语音音频转换为文本的模型任务。

核心机制 / 工作原理

ASR 的输入是音频波形或音频特征,输出通常是文本、时间戳、语言识别结果或分段转录结果。

一个常见链路是:

  1. 采集或上传音频。
  2. 做格式统一、降噪、音量归一化和静音检测。
  3. 通过 VAD 或固定窗口把长音频切成片段。
  4. 调用 ASR 模型识别每段语音。
  5. 合并文本、修正标点、补时间戳和说话人信息。

模型本身只解决“声音到文字”的核心转换,真实系统效果还强依赖前处理、切片、后处理和评估。

最小例子 / 最小场景

会议录音进入后端后,系统先把音频切片,再用 OpenAI Whisper 一类 ASR 模型转成逐段文本,最后交给 LLM 做摘要和行动项提取。

这个场景里,ASR 只负责转录;摘要、任务提取和知识整理属于后续文本处理任务。

常见使用场景

  • 会议记录和访谈转录
  • 视频字幕和播客转写
  • 语音输入法和语音助手
  • 客服录音质检
  • 音频内容搜索和归档

边界与易混淆点

  • ASR 不等于 TTS:ASR 是语音到文本,TTS 是文本到语音。
  • ASR 不等于 LLM:ASR 负责听写,LLM 更常负责摘要、理解、结构化和生成。
  • ASR 不自动解决说话人分离:speaker diarization 通常是独立能力或额外模块。
  • ASR 质量不只取决于模型大小:录音质量、噪声、口音、术语表、分片策略都会影响结果。

最短记忆方式

ASR 是“让机器听写”的模型任务,核心是把音频转成可继续处理的文本。

创建于 2026/6/23 更新于 2026/6/23