rog吧 关注:408,027贴子:2,169,377
  • 19回复贴,共1

笔记本本地部署deepseek蒸馏模型性能情况

只看楼主收藏回复

机器配置:枪神8超竞,64g内存,4080 12gb显存
使用软件为LM Studio 0.3.10,软件默认设置:上下文长度4096,CPU线程32,系统提示:空,温度0.6
测试了7B、8B、14B和32B模型速度
1、7BQ8:GPU offload 28/28,CPU占用20%,内存占用19%,显存占用8.7/12GB,GPU占用95%,37token/s左右
2、8BQ8:GPU offload 32/32,CPU占用20%,内存占用21%,显存占用9.4/12GB,GPU占用95%,35token/s左右,但是在测试“2024^2025和2025^2024哪个大?”这一问题时,共测试5次错4次对1次
3、14BQ4:GPU offload 48/48,CPU占用25%,内存占用21%,显存占用10.3/12GB,GPU占用95%,30token/s左右
4、14BQ8:GPU offload 32/48,CPU占用100%,内存占用41%,显存占用11.5/12GB,GPU占用30%,7.5token/s左右
5、32BQ4:GPU offload 32/64,CPU占用100%,内存占用33%,显存占用11.3/12GB,GPU占用30%,4.5token/s左右
6、32BQ8:GPU offload 19/64,CPU占用100%,内存占用68%,显存占用11.3/12GB,GPU占用25%,2.5token/s左右
1-3为纯显卡运行,4-6为CPU、内存、显卡混用,8BQ8感觉人工智障,而32BQ8基本属于不可用,如果想快速得到结果可以用14BQ4,如果想保证还算能用好用可以用32BQ4




IP属地:安徽来自Android客户端1楼2025-02-19 17:16回复
    搞这个能干啥


    IP属地:贵州来自Android客户端3楼2025-02-19 22:14
    收起回复
      广告
      立即查看
      等lm studio支持上tensorrt我再回来看


      IP属地:美国来自Android客户端4楼2025-02-20 09:22
      回复
        不如去接api,本地部署基本不可用,又蠢又慢


        IP属地:四川来自Android客户端5楼2025-02-20 14:17
        收起回复
          老哥,我问下,笔记本16g显存 32g内存 能对deepseek多少b的模型进行蒸馏?


          IP属地:天津来自Android客户端6楼2025-02-20 17:16
          收起回复
            有没有幻x2025的测试,据说这款标榜就是适合跑ai的


            IP属地:广东来自iPhone客户端7楼2025-02-20 23:00
            收起回复
              蒸馏的模型都是弱智,没啥大用,还不如 api,元宝这些


              IP属地:河北来自iPhone客户端8楼2025-02-22 11:05
              回复