文本转语音 TTS
TTS 是把文本转换为可播放语音的 AI 模型任务,常用于语音助手、播报、配音、无障碍阅读和虚拟角色。
#tech / ai
#type / concept
#status / growing
#resource / tts
[!info] related notes
- 所属 MOC: AI 模型能力 MOC, AI MOC
- 前置概念: transformer
- 并列概念: 自动语音识别 ASR
- 相关场景: AI 对话页面实现, hyprnote
文本转语音 TTS
一句话定义
TTS 是 Text to Speech 的缩写,指把文本转换为自然语音音频的模型任务。
核心机制 / 工作原理
TTS 的输入通常是文本、语言、声音风格、语速、情绪或说话人配置,输出是可播放的音频。
一个常见链路是:
- 文本清洗和规范化,例如数字、日期、缩写、标点处理。
- 文本到语音特征或中间表示的建模。
- 生成波形音频。
- 做音量、停顿、格式和流式播放处理。
早期 TTS 常把声学模型和声码器拆开理解;现代端到端模型会把更多步骤合并,但工程上仍要关注文本预处理、声音一致性、延迟和播放体验。
最小例子 / 最小场景
AI 助手先用 LLM 生成回复文本,再用 TTS 把回复合成为语音,前端边接收音频边播放。
这个场景里,LLM 负责“说什么”,TTS 负责“怎么发声”。
常见使用场景
- 语音助手回复
- 有声书和文章朗读
- 短视频旁白和配音
- 客服机器人播报
- 无障碍阅读
- 虚拟角色和实时语音交互
边界与易混淆点
- TTS 不等于 ASR:TTS 是文本到语音,ASR 是语音到文本。
- TTS 不负责理解文本事实是否正确:事实和内容质量通常来自上游 LLM 或业务系统。
- 声音克隆不是普通 TTS 的必然能力:它需要说话人条件、样本授权和更严格的安全边界。
- 高质量 TTS 不只看音色:停顿、重音、情绪、延迟、稳定性和可控性同样重要。
最短记忆方式
TTS 是“让机器把文字说出来”的模型任务,核心是把文本变成自然、稳定、可播放的语音。