本地知识库的私人DeepSeek

DeepSeek-R1（671B）作为强大的教师模型，已经蒸馏出了多个参数规模的学生模型，覆盖从 1.5B 到 70B 的不同需求场景，主要包括以下系列：

DeepSeek-R1 蒸馏模型全家族

模型名称	学生模型架构	教师模型	主要能力	适用场景	显存占用
DeepSeek-R1-Distill-Qwen-1.5B	Qwen-1.5B	DeepSeek-R1(671B)	⭐ 推理优化 💬 聊天增强	移动端/嵌入式设备	~3GB (FP16)
DeepSeek-R1-Distill-Qwen-7B	Qwen-7B	DeepSeek-R1(671B)	📊 数学推理 💻 基础编程	轻量级服务器/笔记本	~14GB (FP16)
DeepSeek-R1-Distill-Qwen-14B	Qwen-14B	DeepSeek-R1(671B)	⚡ 多轮对话 📈 复杂逻辑	性价比云服务器/工作站	~28GB (FP16)
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B-Instruct	DeepSeek-R1(671B)	🧠 接近R1的推理能力 🏆 数学/代码顶尖水平	高性能推理服务器	~64GB (FP16)
DeepSeek-R1-Distill-Llama-70B	Llama 2-70B	DeepSeek-R1(671B)	🌐 知识密集型任务 📚 长文本理解	企业级大模型服务	~140GB (FP16)

为什么 32B 版本特殊？

Qwen2.5-32B-Instruct 本身是阿里开源的 高性能指令微调模型，在数学和代码任务中表现优异。DeepSeek 选择它作为 32B 蒸馏的基座，主要因为：

32B 是指蒸馏后模型的大小

DeepSeek-R1-Distill-Qwen-32B 中的 “32B” 指的是该蒸馏后模型本身的参数量为 32B（320 亿）。
它由 DeepSeek-R1（660B 主模型） 作为“教师模型”，对“学生模型” Qwen2.5-32B-Instruct 进行蒸馏后得到的轻量化版本。
因此，DeepSeek-R1-Distill-Qwen-32B中的32B 既不是 DeepSeek-R1的大小，也不是原始 Qwen2.5-32B-Instruct 的大小，而是蒸馏后的目标模型规模。

蒸馏技术流程（通用）

无论学生架构如何，所有 DeepSeek-R1-Distill 模型均采用相同的蒸馏方法：

各模型性能对比

模型	AIME 2024 (Pass@1)	MATH-500 (Pass@1)	显存占用（FP16）
Qwen-1.5B（原始）	<20%	<60%	~3 GB
DeepSeek-R1-Distill-Qwen-1.5B	28.9%	83.9%	~3 GB 6
DeepSeek-R1-Distill-Qwen-7B	55.5%	未公开	~14 GB 4
DeepSeek-R1-Distill-Qwen-32B	72.6%	94.3%	~64 GB 48

蒸馏后的小模型（如 1.5B）性能显著超越原始基座，甚至接近 GPT-4。所有模型均支持 免费商用（Apache 2.0），适合企业/个人集成使用。

RAG(Retrieval-Augmented Generation, 检索增强生成)是一种结合信息检索与生成模型的人工智能技术，旨在通过检索外部知识库中的信息来增强语音模型的生成能力。

../../../_images/1.png

../../../_images/2.png

AnythingLLM：企业级知识库管理平台，支持多格式文档上传、向量数据库集成及灵活的API调用，适用于构建私有化问答系统。