据官方博客称 GPT-4o mini 在文本智能和多模态推理的学术基准上超过了 GPT-3.5 Turbo 和其他小型模型,并支持与 GPT-4o 相同的语言范围。并且还在函数调用方面表现出强大的性能,可以使开发人员能够构建获取数据或对外部系统执行操作的应用程序,并且与 GPT-3.5 Turbo 相比,提高了长上下文性能。GPT-4o mini 目前已通过多个关键基准测试进行评估推理任务:GPT-4o mini 在涉及文本和视觉的推理任务方面优于其他小型模型,在文本智能和推理基准 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上以前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。GPT-4o mini 在衡量编码性能的 HumanEval 上得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出强劲的表现,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。(如图所示)