智能摘要系统
以语音识别、摘要生成和桌面端交互为核心的智能摘要系统技术方案简述。
#tech / ai
#type / synthesis
#status / growing
[!info] related notes
- 所属 MOC: AI MOC
- 相关资源: transformers, openai-whisper, pytorch
- 相关方案: hyprnote, hyprnote-startup
智能摘要系统
范围
这篇笔记更偏一个具体系统方案示例,用来说明“语音识别 + 摘要 + 桌面端交互”如何组合落地。
一句话定义
智能摘要系统的核心,是把音频内容经过转录、摘要、结构化处理后,变成可搜索、可回顾、可继续加工的知识结果。
技术架构
技术栈
前端技术栈
● 框架:react + typescript ● 桌面应用:tauri ● UI 组件:ant-design ● 状态管理:[[zustand]] ● 实时通信:web-socket ● 构建工具:vite-moc
后端技术栈
● API 服务:fastapi ● AI 处理:python + transformers + pytorch ● 语音识别:openai-whisper+(流式集成) ● 大语言模型:Ollama + 通用大模型 ● 数据库:sqlite + sqlalchemy ● 异步处理:celery + redis
AI 模型选择
● 语音转写:Whisper Large V3(多语言支持) ● 文本摘要:通用大模型 ● 翻译模型:NLLB-200 / M2M-100 ● 嵌入模型:BGE / Sentence-Transformers
关键链路
- 前端采集音频并上传或流式传输
- 后端用
[[openai-whisper]]一类 ASR 模型做转录 - 用
[[transformers]]、[[pytorch]]或通用大模型做摘要与结构化处理 - 把结果存入数据库和检索层,供后续搜索与复用
这个方案最值得关注的点
- 语音识别质量是否足够稳定
- 摘要是否能正确保留事实和行动项
- 前后端链路是否支持长任务、异步处理和结果回看
- 桌面端交互是否能承载录音、上传、状态反馈和结果编辑
和相关笔记的边界
[[smart-summary-system]]是具体系统方案视角[[hyprnote]]是更通用的产品能力视角[[openai-whisper]]是语音识别模型视角
启动与实现线索
- 启动问题和平台细节见
[[hyprnote-startup]]