AI 模型能力 MOC

按输入输出和任务形态组织 AI 模型能力的导航入口,覆盖 LLM、ASR、TTS、视觉、多模态、embedding 等方向。

#tech / ai #type / moc #status / growing #resource / ai-model-capability

[!info] related notes

AI 模型能力 MOC

这张地图覆盖什么

这张地图按“模型处理什么输入、产出什么输出、解决什么任务”来组织 AI 模型能力。

它关注的是模型任务边界,而不是具体厂商、产品套餐或 API 价格。

推荐阅读顺序 / 从这里开始

  1. LLM:先理解文本理解、生成和推理类模型的基础入口。
  2. Transformer:理解许多现代文本、语音、视觉模型背后的通用架构思想。
  3. 自动语音识别 ASR:理解语音转文本。
  4. 文本转语音 TTS:理解文本转语音。
  5. Embedding 模型:理解语义向量和检索召回。
  6. Reranker 模型:理解检索结果如何二次排序。
  7. 光学字符识别 OCR:理解图片文字识别。
  8. 视觉语言模型 VLM:理解图像和文本如何一起处理。
  9. 扩散模型:理解图像生成类模型的基本思路。

核心概念分组

文本与语言

  • LLM:文本理解、生成、摘要、推理、代码生成等任务的基础模型类型。
  • LLM Task Routing:根据任务类型把请求分流到不同模型、prompt 或工具链。
  • 多模型 LLM Provider 抽象层:工程上统一多个模型供应商的接口差异。

语音与音频

视觉与多模态

向量、检索与语义表示

  • Embedding 模型:把内容编码成可比较的语义向量。
  • Reranker 模型:对召回候选做二次相关性排序。
  • Python RAG Agent:包含 embedding 模型、向量库和检索增强回答的实践链路。
  • Augmented LLM:把模型、检索、工具和记忆组合成可执行构件。

关系笔记入口

操作指南 / 资源入口

相关 MOC

创建于 2026/6/23 更新于 2026/6/23