AI 模型能力 MOC
按输入输出和任务形态组织 AI 模型能力的导航入口,覆盖 LLM、ASR、TTS、视觉、多模态、embedding 等方向。
#tech / ai
#type / moc
#status / growing
#resource / ai-model-capability
[!info] related notes
- 相关 MOC: AI MOC
- 前置概念: transformer, LLM
- 相关资源: transformers, openai-whisper, deepseek-ocr, umi-ocr
AI 模型能力 MOC
这张地图覆盖什么
这张地图按“模型处理什么输入、产出什么输出、解决什么任务”来组织 AI 模型能力。
它关注的是模型任务边界,而不是具体厂商、产品套餐或 API 价格。
推荐阅读顺序 / 从这里开始
- LLM:先理解文本理解、生成和推理类模型的基础入口。
- Transformer:理解许多现代文本、语音、视觉模型背后的通用架构思想。
- 自动语音识别 ASR:理解语音转文本。
- 文本转语音 TTS:理解文本转语音。
- Embedding 模型:理解语义向量和检索召回。
- Reranker 模型:理解检索结果如何二次排序。
- 光学字符识别 OCR:理解图片文字识别。
- 视觉语言模型 VLM:理解图像和文本如何一起处理。
- 扩散模型:理解图像生成类模型的基本思路。
核心概念分组
文本与语言
- LLM:文本理解、生成、摘要、推理、代码生成等任务的基础模型类型。
- LLM Task Routing:根据任务类型把请求分流到不同模型、prompt 或工具链。
- 多模型 LLM Provider 抽象层:工程上统一多个模型供应商的接口差异。
语音与音频
- 自动语音识别 ASR:把语音、会议录音、视频音轨转成文本。
- 文本转语音 TTS:把文本生成可播放语音,常用于语音助手、旁白和播报。
- OpenAI Whisper:常见的 ASR 模型资源入口。
视觉与多模态
- 光学字符识别 OCR:从图片、扫描件、截图或视频帧中识别文字。
- 视觉语言模型 VLM:理解图片和文本之间的语义关系。
- 扩散模型:从噪声逐步去噪生成图像等内容。
- Cloudflare Workers AI Vision:视觉模型调用实践。
- 视频素材理解管线:视频理解任务链路。
- DeepSeek OCR:OCR 具体工具或模型资源入口。
- Umi OCR:离线 OCR 工具资源入口。
向量、检索与语义表示
- Embedding 模型:把内容编码成可比较的语义向量。
- Reranker 模型:对召回候选做二次相关性排序。
- Python RAG Agent:包含 embedding 模型、向量库和检索增强回答的实践链路。
- Augmented LLM:把模型、检索、工具和记忆组合成可执行构件。