自动语音识别 ASR

ASR 是把语音信号转换为文本的 AI 模型任务，常用于会议转录、字幕生成、语音输入和音频检索。

#tech / ai #type / concept #status / growing #resource / asr

[!info] related notes

所属 MOC: AI 模型能力 MOC, AI MOC

前置概念: transformer

并列概念: 文本转语音 TTS

相关资源: OpenAI Whisper

应用场景: hyprnote, 智能摘要系统

一句话定义

ASR 是 Automatic Speech Recognition 的缩写，指把语音音频转换为文本的模型任务。

ASR 的输入是音频波形或音频特征，输出通常是文本、时间戳、语言识别结果或分段转录结果。

一个常见链路是：

模型本身只解决“声音到文字”的核心转换，真实系统效果还强依赖前处理、切片、后处理和评估。

会议录音进入后端后，系统先把音频切片，再用 OpenAI Whisper 一类 ASR 模型转成逐段文本，最后交给 LLM 做摘要和行动项提取。

这个场景里，ASR 只负责转录；摘要、任务提取和知识整理属于后续文本处理任务。

ASR 是“让机器听写”的模型任务，核心是把音频转成可继续处理的文本。