文本转语音 TTS

TTS 是把文本转换为可播放语音的 AI 模型任务,常用于语音助手、播报、配音、无障碍阅读和虚拟角色。

#tech / ai #type / concept #status / growing #resource / tts

[!info] related notes

文本转语音 TTS

一句话定义

TTS 是 Text to Speech 的缩写,指把文本转换为自然语音音频的模型任务。

核心机制 / 工作原理

TTS 的输入通常是文本、语言、声音风格、语速、情绪或说话人配置,输出是可播放的音频。

一个常见链路是:

  1. 文本清洗和规范化,例如数字、日期、缩写、标点处理。
  2. 文本到语音特征或中间表示的建模。
  3. 生成波形音频。
  4. 做音量、停顿、格式和流式播放处理。

早期 TTS 常把声学模型和声码器拆开理解;现代端到端模型会把更多步骤合并,但工程上仍要关注文本预处理、声音一致性、延迟和播放体验。

最小例子 / 最小场景

AI 助手先用 LLM 生成回复文本,再用 TTS 把回复合成为语音,前端边接收音频边播放。

这个场景里,LLM 负责“说什么”,TTS 负责“怎么发声”。

常见使用场景

  • 语音助手回复
  • 有声书和文章朗读
  • 短视频旁白和配音
  • 客服机器人播报
  • 无障碍阅读
  • 虚拟角色和实时语音交互

边界与易混淆点

  • TTS 不等于 ASR:TTS 是文本到语音,ASR 是语音到文本。
  • TTS 不负责理解文本事实是否正确:事实和内容质量通常来自上游 LLM 或业务系统。
  • 声音克隆不是普通 TTS 的必然能力:它需要说话人条件、样本授权和更严格的安全边界。
  • 高质量 TTS 不只看音色:停顿、重音、情绪、延迟、稳定性和可控性同样重要。

最短记忆方式

TTS 是“让机器把文字说出来”的模型任务,核心是把文本变成自然、稳定、可播放的语音。

创建于 2026/6/23 更新于 2026/6/23