笔记本本地部署deepseek蒸馏模型性能情况【rog吧】

rog吧关注：408,027贴子：2,169,377

19回复贴，共1页

笔记本本地部署deepseek蒸馏模型性能情况

机器配置:枪神8超竞，64g内存，4080 12gb显存
使用软件为LM Studio 0.3.10，软件默认设置:上下文长度4096，CPU线程32，系统提示：空，温度0.6
测试了7B、8B、14B和32B模型速度
1、7BQ8：GPU offload 28/28，CPU占用20%，内存占用19%，显存占用8.7/12GB，GPU占用95%，37token/s左右
2、8BQ8：GPU offload 32/32，CPU占用20%，内存占用21%，显存占用9.4/12GB，GPU占用95%，35token/s左右，但是在测试“2024^2025和2025^2024哪个大？”这一问题时，共测试5次错4次对1次
3、14BQ4：GPU offload 48/48，CPU占用25%，内存占用21%，显存占用10.3/12GB，GPU占用95%，30token/s左右
4、14BQ8：GPU offload 32/48，CPU占用100%，内存占用41%，显存占用11.5/12GB，GPU占用30%，7.5token/s左右
5、32BQ4：GPU offload 32/64，CPU占用100%，内存占用33%，显存占用11.3/12GB，GPU占用30%，4.5token/s左右
6、32BQ8：GPU offload 19/64，CPU占用100%，内存占用68%，显存占用11.3/12GB，GPU占用25%，2.5token/s左右
1-3为纯显卡运行，4-6为CPU、内存、显卡混用，8BQ8感觉人工智障，而32BQ8基本属于不可用，如果想快速得到结果可以用14BQ4，如果想保证还算能用好用可以用32BQ4