LLM Parallelization
让多个 LLM 调用并行处理同一任务或不同子任务,再汇总结果,用空间换速度或置信度。
#tech / ai
#resource / llm-parallelization
#type / concept
#status / growing
[!info] related notes
- 所属 MOC: AI MOC
- 前置概念: Agentic Systems
- 并列概念: Prompt Chaining, LLM Task Routing, Orchestrator-Workers
- 易混淆概念:
- 关系笔记: Agentic Workflow Patterns
LLM Parallelization
一句话定义
LLM parallelization 是把任务拆成可并行的多个 LLM 调用,再用程序汇总结果,以换取更高速度或更高置信度。
核心机制 / 工作原理
它常见有两种形式:
- sectioning:把任务拆成彼此独立的子块并行处理
- voting:让多个模型实例做同一件事,再按投票或规则汇总
最小例子 / 最小场景
sectioning
- 一个模型负责核心回答
- 另一个模型并行检查安全、合规或越权请求
voting
- 多个 prompt 并行审查同一段代码
- 如果多个审查器都指出漏洞,再提升告警等级
边界与易混淆点
- 可并行化的前提是子任务之间相互独立,或至少弱耦合。
- voting 能提升置信度,但也会明显增加成本。
- 如果子任务本质上还需要动态拆解,往往更像 Orchestrator-Workers,而不是普通 parallelization。