AI 模型能力 MOC

按输入输出和任务形态组织 AI 模型能力的导航入口，覆盖 LLM、ASR、TTS、视觉、多模态、embedding 等方向。

#tech / ai #type / moc #status / growing #resource / ai-model-capability

[!info] related notes

相关 MOC: AI MOC

前置概念: transformer, LLM

相关资源: transformers, openai-whisper, deepseek-ocr, umi-ocr

AI 模型能力 MOC

这张地图覆盖什么

这张地图按“模型处理什么输入、产出什么输出、解决什么任务”来组织 AI 模型能力。

它关注的是模型任务边界，而不是具体厂商、产品套餐或 API 价格。

推荐阅读顺序 / 从这里开始

LLM：先理解文本理解、生成和推理类模型的基础入口。
Transformer：理解许多现代文本、语音、视觉模型背后的通用架构思想。
自动语音识别 ASR：理解语音转文本。
文本转语音 TTS：理解文本转语音。
Embedding 模型：理解语义向量和检索召回。
Reranker 模型：理解检索结果如何二次排序。
光学字符识别 OCR：理解图片文字识别。
视觉语言模型 VLM：理解图像和文本如何一起处理。
扩散模型：理解图像生成类模型的基本思路。

核心概念分组

文本与语言

LLM：文本理解、生成、摘要、推理、代码生成等任务的基础模型类型。
LLM Task Routing：根据任务类型把请求分流到不同模型、prompt 或工具链。
多模型 LLM Provider 抽象层：工程上统一多个模型供应商的接口差异。

语音与音频

自动语音识别 ASR：把语音、会议录音、视频音轨转成文本。
文本转语音 TTS：把文本生成可播放语音，常用于语音助手、旁白和播报。
OpenAI Whisper：常见的 ASR 模型资源入口。

视觉与多模态

光学字符识别 OCR：从图片、扫描件、截图或视频帧中识别文字。
视觉语言模型 VLM：理解图片和文本之间的语义关系。
扩散模型：从噪声逐步去噪生成图像等内容。
Cloudflare Workers AI Vision：视觉模型调用实践。
视频素材理解管线：视频理解任务链路。
DeepSeek OCR：OCR 具体工具或模型资源入口。
Umi OCR：离线 OCR 工具资源入口。

向量、检索与语义表示

Embedding 模型：把内容编码成可比较的语义向量。
Reranker 模型：对召回候选做二次相关性排序。
Python RAG Agent：包含 embedding 模型、向量库和检索增强回答的实践链路。
Augmented LLM：把模型、检索、工具和记忆组合成可执行构件。

关系笔记入口

操作指南 / 资源入口

相关 MOC