thinking-in-llm
Contents:
基础知识
AI 对话客户端
各类大模型运行GPU配置推荐
大模型介绍
模型部署
搭建基本环境
基于vLLM本地部署企业级大模型
QWQ-32B本地部署与调用指南
实战演练
本地知识库的私人DeepSeek
如何把你的模型微调为专家
thinking-in-llm
Welcome to thinking-in-llm’s documentation!
Edit on GitHub
Welcome to thinking-in-llm’s documentation!
Contents:
基础知识
AI 对话客户端
1.
Cherry Studio
2. Chatbox AI
3. Ollama
4. LM Studio
5. AnythingLLM
6. GPT4All
各类大模型运行GPU配置推荐
1.GPU计算性能核⼼参数详细介绍
2.PCIe、NVLink与NVSwitch 技术⽅案介绍介绍与对⽐
3.RTX显卡信息 NVIDIA Gaming Graphics Cards
4.A100 PCIe&SXM、A800 显卡参数对⽐
5.认识⽬前主流显卡,NVIDIA主流显卡命名规则
5.1NVIDIA显卡主要分类及命名规则
5.2NVIDIA 各类显卡功能总结
6.各类GPU的FP16和FP8训练和推理性能
7.不同尺⼨、不同精度 ⼤模型推理所需显存占⽤
8.不同使⽤场景下推荐GPU配置⽅案
8.1个⼈学习、⼩型科研团队
8.2中⼩型科研团队、初创公司
8.3⼤型科研团队、中⼤型公司
关于 Ampere GPU
A10 与 A100:规格
大模型介绍
Qwen3大模型介绍
引言
核心亮点
预训练
后训练
模型选择
开始使用 Qwen3
高级用法
Agent 示例
模型部署
搭建基本环境
1. 搭建环境
1.1 安装 miniconda
1.2 修改镜像源
1.3 激活 miniconda
基于vLLM本地部署企业级大模型
1.vLLM
2.演示环境
2.1 环境设置
2.1.1 install miniconda
2.1.1 激活miniconda
2.1.2 修改镜像源
2.1.3 创建conda虚拟环境
2.1.4 安装CUDA
2.1.5 安装vLLM
2.2 部署模型
2.2.1 下载模型方式1
2.2.2 下载模型方式2
2.2.3 运行
QWQ-32B本地部署与调用指南
一、QwQ-32B模型介绍
1. 模型简介(Introduction)
2. 强化学习训练效果
3. QwQ 32B模型基本参数
4. 更多QwQ入门介绍与课件下载地址
二、QWQ-32B全量模型下载与Transformers推理流程
1. QWQ-32B模型下载与环境搭建
2. Jupyter中使用transformer原生库调用流程
三、QWQ-32B模型接入Ollama与推理流程
1. ollama安装
2. QWQ-32B GGUF格式模型权重下载
2.1 【方案一】在线下载模型权重
2.2 【方案二】离线下载模型权重
3. ollama API本地运行流程
四、QWQ-32B模型接入vLLM与推理流程
1.vLLM安装与启动
2.OpenAI风格API响应模式
五、基于llama.cpp的QwQ模型CPU推理
1. llama.cpp下载与编译
2.借助llama.cpp运行QwQ模型
六、QWQ-32B接入Open-WebUI流程
1.Open-WebUI部署流程
2. Open-WebUI启动与对话流程
3. 本地知识库检索
4. 代码解释器
5. 调用外部工具
实战演练
本地知识库的私人DeepSeek
DeepSeek-R1 蒸馏模型全家族
RAG架构介绍
AnythingLLM
参考
如何把你的模型微调为专家
模型微调简介
通过平台微调大模型
Indices and tables
Index
Module Index
Search Page