应群友的要求，写个A770部署deepseek的流程【a770吧】

a770吧关注：1,836贴子：14,028

1 2 下一页尾页
40回复贴，共2页
，跳到页

应群友的要求，写个A770部署deepseek的流程

A770部署deepseek大致有4070的水平，能流畅的跑14B Q6 。我分别尝试了8B，12B ，14B Q8都挺流畅的，其中14B Q8需要在命令行无UI下跑，带UI会小卡。
驱动版本要求：32.0.101.6458/32.0.101.6257（经过 WHQL 认证）
不要心存侥幸用其他版本，特别是最新版的6599,经测试玩AI是依托大便。

送TA礼物

IP属地:广东

1楼2025-02-13 09:33回复

LM-STUDIO是跑AI的前端软件，也就是图形UI方便你操作的。类似的还有OLLAMA，ollama是文字界面，使用需要配合chatbox之类，否则只能敲命令行操作。
ollama默认支持n卡，使用i卡需要配合ipex工具，要敲一大堆命令行，构你烦的，没点linux经验的建议绕道。
总之，为了方便你们操作，请使用lm-studio。下载lm-studio要科学上网，为了你们方便，我传到群共享。

IP属地:广东

2楼2025-02-13 09:41

长沙掌途网络科技

已解答3分钟自测，在线测试分析您的身体情况如何，酸枣仁的问题点击查看详情，立即进入自测

2025-05-04 12:48广告

立即查看

再来说说大模型的格式，类似图片有jpg，png，webp等奇奇怪怪的后缀，大模型请大家选择使用GGUF后缀的格式。GGUF：适用于 CPU 推理或低显存 GPU，支持逐层加载（部分权重驻留内存），灵活性高。
一般大模型的名称的含义，我举个例子，大伙举一反三啊：DeepSeek-R1-Distill-Qwen-14B.gguf
名称各部分含义如下：
DeepSeek：是幻方量化旗下大模型公司的名称
。
R1：指 DeepSeek 研发的系列推理模型中的一个版本，通过结合冷启动数据、多阶段训练管道和纯强化学习，提升了大型语言模型的推理能力
。
Distill：英文意思是 “蒸馏”，在模型领域指蒸馏技术。这里表示该模型是通过蒸馏方法得到的，即把大模型如 DeepSeek-R1 的知识和能力传递给小模型，使小模型在保持较小规模的同时能获得较好性能
。
Qwen：代表阿里云通义千问系列模型，表明这个被蒸馏的学生模型是以通义千问的模型为基础。
14B：表示模型的参数规模，这里指该模型大约有 140 亿个参数。
.gguf：是 GPT-Generated Unified Format 的缩写，是专为高效推理设计的二进制格式，常用于 llama.cpp 等工具在 CPU/GPU 上运行量化模型，支持多种量化方法，能显著减少显存占用

IP属地:广东

4楼2025-02-13 09:52

为了方便大伙理解，打个不恰当的比方哈。
im-studio假如是一台光碟机，
DeepSeek-R1-Distill-Qwen-14B.gguf相当于光碟
把光碟插入光碟机，就能播放了。
把DeepSeek-R1-Distill-Qwen-14B.gguf塞入im-studio，我们就能使用大模型了。
大家明白了DeepSeek-R1-Distill-Qwen-14B.gguf名称的含义，就能自由的挑选合适自己的“光碟”了。
一般挑选大模型镜像的网站是huggingface，需要科学上网才能访问，国内镜像是hf-mi善rror善.善com。
大伙去hf-mi善rror善.善com挑选合适自己的镜像，然后使用迅雷之类的工具下载吧。这里推荐DeepSeek-R1-Distill-Qwen-14B-Q6_K.gguf

IP属地:广东

5楼2025-02-13 10:00

lm-studio安装好了，找到C盘用户【你的用户名】文件夹下.lmstudio文件夹，然后找到models文件夹：
models文件夹是空文件夹，新建一个文件夹，比如我下载了14B Q6的模型，我就新建一个deepseek_R1_14B _Q6的文件夹。
进入deepseek_R1_14B _Q6的文件夹再新建一个DeepSeek-R1-Distill-Qwen-14B-Q6_K文件夹。把下载好的DeepSeek-R1-Distill-Qwen-14B-Q6_K.gguf放入其中。
完成上述步骤后，运行LM Studio 软件，选择左侧开发者图标，点击选择要加载的模型，即可看到你所下载好的模型。

IP属地:广东

6楼2025-02-13 10:08

可对一些参数进行调整：
上下文长度（Context Length）
定义：模型在处理文本时，一次能考虑的上下文长度。
作用：较长的上下文长度有助于模型更好地理解文本，但会增加计算负担和内存占用。
这里根据任务需求和自己的硬件性能调整，长文本任务可适当增加，短文本任务可减少以节省资源。一般设置为4000多。
GPU负载（GPU Load）
定义：GPU在模型推理或训练中的使用率。
作用：高负载表示GPU被充分利用，低负载则可能意味着计算资源未被有效使用。
这个根据自己的GPU显存大小调整若负载过低，可增加批量大小或并行任务；若负载过高，需减少任务或优化模型。
————————————————
CPU线程池大小（CPU Thread Pool Size）
定义：CPU用于并行处理任务的线程数量。
作用：更多线程可加速计算，但过多线程可能导致资源竞争和性能下降。
调整建议：根据CPU核心数和任务需求调整，通常设置为CPU核心数的1-2倍。
调整好参数后点击Remember seeting for和加载模型等待模型加载完成即可。
————————————————
完成以上步骤，就能愉快的使用了。

IP属地:广东

7楼2025-02-13 10:10