a770吧 关注:1,836贴子:14,028

应群友的要求,写个A770部署deepseek的流程

只看楼主收藏回复

A770部署deepseek大致有4070的水平,能流畅的跑14B Q6 。 我分别尝试了8B,12B ,14B Q8都挺流畅的,其中14B Q8需要在命令行无UI下跑,带UI会小卡。
驱动版本要求:32.0.101.6458/32.0.101.6257(经过 WHQL 认证)
不要心存侥幸用其他版本,特别是最新版的6599,经测试玩AI是依托大便。


IP属地:广东1楼2025-02-13 09:33回复
    LM-STUDIO是跑AI的前端软件,也就是图形UI方便你操作的。类似的还有OLLAMA,ollama是文字界面,使用需要配合chatbox之类,否则只能敲命令行操作。
    ollama默认支持n卡,使用i卡需要配合ipex工具,要敲一大堆命令行,构你烦的,没点linux经验的建议绕道。
    总之,为了方便你们操作,请使用lm-studio。下载lm-studio要科学上网,为了你们方便,我传到群共享。


    IP属地:广东2楼2025-02-13 09:41
    回复
      广告
      立即查看
      再来说说大模型的格式,类似图片有jpg,png,webp等奇奇怪怪的后缀,大模型请大家选择使用GGUF后缀的格式。GGUF:适用于 CPU 推理或低显存 GPU,支持逐层加载(部分权重驻留内存),灵活性高。
      一般大模型的名称的含义,我举个例子,大伙举一反三啊:DeepSeek-R1-Distill-Qwen-14B.gguf
      名称各部分含义如下:
      DeepSeek:是幻方量化旗下大模型公司的名称

      R1:指 DeepSeek 研发的系列推理模型中的一个版本,通过结合冷启动数据、多阶段训练管道和纯强化学习,提升了大型语言模型的推理能力

      Distill:英文意思是 “蒸馏”,在模型领域指蒸馏技术。这里表示该模型是通过蒸馏方法得到的,即把大模型如 DeepSeek-R1 的知识和能力传递给小模型,使小模型在保持较小规模的同时能获得较好性能

      Qwen:代表阿里云通义千问系列模型,表明这个被蒸馏的学生模型是以通义千问的模型为基础。
      14B:表示模型的参数规模,这里指该模型大约有 140 亿个参数。
      .gguf:是 GPT-Generated Unified Format 的缩写,是专为高效推理设计的二进制格式,常用于 llama.cpp 等工具在 CPU/GPU 上运行量化模型,支持多种量化方法,能显著减少显存占用


      IP属地:广东4楼2025-02-13 09:52
      回复
        为了方便大伙理解,打个不恰当的比方哈。
        im-studio假如是一台光碟机,
        DeepSeek-R1-Distill-Qwen-14B.gguf相当于光碟
        把光碟插入光碟机,就能播放了。
        把DeepSeek-R1-Distill-Qwen-14B.gguf塞入im-studio,我们就能使用大模型了。
        大家明白了DeepSeek-R1-Distill-Qwen-14B.gguf名称的含义,就能自由的挑选合适自己的“光碟”了。
        一般挑选大模型镜像的网站是huggingface,需要科学上网才能访问,国内镜像是hf-mi善rror善.善com。
        大伙去hf-mi善rror善.善com挑选合适自己的镜像,然后使用迅雷之类的工具下载吧。这里推荐DeepSeek-R1-Distill-Qwen-14B-Q6_K.gguf


        IP属地:广东5楼2025-02-13 10:00
        回复
          lm-studio安装好了,找到C盘用户【你的用户名】文件夹下.lmstudio文件夹,然后找到models文件夹:
          models文件夹是空文件夹,新建一个文件夹,比如我下载了14B Q6的模型,我就新建一个deepseek_R1_14B _Q6的文件夹。
          进入deepseek_R1_14B _Q6的文件夹再新建一个DeepSeek-R1-Distill-Qwen-14B-Q6_K文件夹。 把下载好的DeepSeek-R1-Distill-Qwen-14B-Q6_K.gguf放入其中。
          完成上述步骤后,运行LM Studio 软件,选择左侧开发者图标,点击选择要加载的模型,即可看到你所下载好的模型。


          IP属地:广东6楼2025-02-13 10:08
          回复
            可对一些参数进行调整:
            上下文长度(Context Length)
            定义:模型在处理文本时,一次能考虑的上下文长度。
            作用:较长的上下文长度有助于模型更好地理解文本,但会增加计算负担和内存占用。
            这里根据任务需求和自己的硬件性能调整,长文本任务可适当增加,短文本任务可减少以节省资源。一般设置为4000多。
            GPU负载(GPU Load)
            定义:GPU在模型推理或训练中的使用率。
            作用:高负载表示GPU被充分利用,低负载则可能意味着计算资源未被有效使用。
            这个根据自己的GPU显存大小调整若负载过低,可增加批量大小或并行任务;若负载过高,需减少任务或优化模型。
            ————————————————
            CPU线程池大小(CPU Thread Pool Size)
            定义:CPU用于并行处理任务的线程数量。
            作用:更多线程可加速计算,但过多线程可能导致资源竞争和性能下降。
            调整建议:根据CPU核心数和任务需求调整,通常设置为CPU核心数的1-2倍。
            调整好参数后点击Remember seeting for和加载模型等待模型加载完成即可。
            ————————————————
            完成以上步骤,就能愉快的使用了。


            IP属地:广东7楼2025-02-13 10:10
            回复
              支持!


              IP属地:河北8楼2025-02-13 10:23
              回复
                前排绑定


                IP属地:山东9楼2025-02-13 10:24
                回复
                  广告
                  立即查看
                  6299行吗


                  IP属地:广东来自Android客户端10楼2025-02-13 10:59
                  收起回复
                    先收藏 有时间试一试


                    IP属地:黑龙江来自Android客户端11楼2025-02-13 11:27
                    收起回复
                      能联网么


                      IP属地:中国香港来自Android客户端12楼2025-02-13 12:58
                      收起回复
                        感谢🙏


                        IP属地:山东来自Android客户端13楼2025-02-13 14:28
                        收起回复
                          火钳刘明


                          IP属地:安徽来自iPhone客户端14楼2025-02-13 17:33
                          收起回复
                            大佬,问下studio跑跑会出现无法发送消息,不知道啥原因


                            IP属地:江苏来自iPhone客户端15楼2025-02-13 18:19
                            收起回复
                              广告
                              立即查看
                              老版本驱动哪里下


                              IP属地:上海来自Android客户端16楼2025-02-13 18:44
                              收起回复