文本转语音 TTS

TTS 是把文本转换为可播放语音的 AI 模型任务，常用于语音助手、播报、配音、无障碍阅读和虚拟角色。

#tech / ai #type / concept #status / growing #resource / tts

[!info] related notes

所属 MOC: AI 模型能力 MOC, AI MOC

前置概念: transformer

并列概念: 自动语音识别 ASR

相关场景: AI 对话页面实现, hyprnote

一句话定义

TTS 是 Text to Speech 的缩写，指把文本转换为自然语音音频的模型任务。

TTS 的输入通常是文本、语言、声音风格、语速、情绪或说话人配置，输出是可播放的音频。

一个常见链路是：

早期 TTS 常把声学模型和声码器拆开理解；现代端到端模型会把更多步骤合并，但工程上仍要关注文本预处理、声音一致性、延迟和播放体验。

AI 助手先用 LLM 生成回复文本，再用 TTS 把回复合成为语音，前端边接收音频边播放。

这个场景里，LLM 负责“说什么”，TTS 负责“怎么发声”。

TTS 是“让机器把文字说出来”的模型任务，核心是把文本变成自然、稳定、可播放的语音。