机器配置:枪神8超竞,64g内存,4080 12gb显存
使用软件为LM Studio 0.3.10,软件默认设置:上下文长度4096,CPU线程32,系统提示:空,温度0.6
测试了7B、8B、14B和32B模型速度
1、7BQ8:GPU offload 28/28,CPU占用20%,内存占用19%,显存占用8.7/12GB,GPU占用95%,37token/s左右
2、8BQ8:GPU offload 32/32,CPU占用20%,内存占用21%,显存占用9.4/12GB,GPU占用95%,35token/s左右,但是在测试“2024^2025和2025^2024哪个大?”这一问题时,共测试5次错4次对1次
3、14BQ4:GPU offload 48/48,CPU占用25%,内存占用21%,显存占用10.3/12GB,GPU占用95%,30token/s左右
4、14BQ8:GPU offload 32/48,CPU占用100%,内存占用41%,显存占用11.5/12GB,GPU占用30%,7.5token/s左右
5、32BQ4:GPU offload 32/64,CPU占用100%,内存占用33%,显存占用11.3/12GB,GPU占用30%,4.5token/s左右
6、32BQ8:GPU offload 19/64,CPU占用100%,内存占用68%,显存占用11.3/12GB,GPU占用25%,2.5token/s左右
1-3为纯显卡运行,4-6为CPU、内存、显卡混用,8BQ8感觉人工智障,而32BQ8基本属于不可用,如果想快速得到结果可以用14BQ4,如果想保证还算能用好用可以用32BQ4



使用软件为LM Studio 0.3.10,软件默认设置:上下文长度4096,CPU线程32,系统提示:空,温度0.6
测试了7B、8B、14B和32B模型速度
1、7BQ8:GPU offload 28/28,CPU占用20%,内存占用19%,显存占用8.7/12GB,GPU占用95%,37token/s左右
2、8BQ8:GPU offload 32/32,CPU占用20%,内存占用21%,显存占用9.4/12GB,GPU占用95%,35token/s左右,但是在测试“2024^2025和2025^2024哪个大?”这一问题时,共测试5次错4次对1次
3、14BQ4:GPU offload 48/48,CPU占用25%,内存占用21%,显存占用10.3/12GB,GPU占用95%,30token/s左右
4、14BQ8:GPU offload 32/48,CPU占用100%,内存占用41%,显存占用11.5/12GB,GPU占用30%,7.5token/s左右
5、32BQ4:GPU offload 32/64,CPU占用100%,内存占用33%,显存占用11.3/12GB,GPU占用30%,4.5token/s左右
6、32BQ8:GPU offload 19/64,CPU占用100%,内存占用68%,显存占用11.3/12GB,GPU占用25%,2.5token/s左右
1-3为纯显卡运行,4-6为CPU、内存、显卡混用,8BQ8感觉人工智障,而32BQ8基本属于不可用,如果想快速得到结果可以用14BQ4,如果想保证还算能用好用可以用32BQ4


