gpt吧 关注:12,875贴子:41,374

GPT-4o mini性能评估(与其他模型对比分)

只看楼主收藏回复

据官方博客称 GPT-4o mini 在文本智能和多模态推理的学术基准上超过了 GPT-3.5 Turbo 和其他小型模型,并支持与 GPT-4o 相同的语言范围。并且还在函数调用方面表现出强大的性能,可以使开发人员能够构建获取数据或对外部系统执行操作的应用程序,并且与 GPT-3.5 Turbo 相比,提高了长上下文性能。GPT-4o mini 目前已通过多个关键基准测试进行评估推理任务:GPT-4o mini 在涉及文本和视觉的推理任务方面优于其他小型模型,在文本智能和推理基准 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上以前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。GPT-4o mini 在衡量编码性能的 HumanEval 上得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出强劲的表现,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。(如图所示)



IP属地:安徽来自Android客户端1楼2024-09-04 15:09回复



    IP属地:安徽来自Android客户端2楼2024-09-04 15:46
    回复


      IP属地:安徽来自Android客户端19楼2024-09-06 23:52
      回复


        IP属地:河北来自iPhone客户端53楼2024-09-16 08:50
        回复


          IP属地:安徽来自Android客户端74楼2024-09-21 06:54
          回复


            IP属地:安徽来自Android客户端84楼2024-09-25 15:00
            回复


              IP属地:安徽来自Android客户端85楼2024-09-25 23:29
              回复


                IP属地:安徽来自Android客户端89楼2024-09-27 23:12
                回复


                  IP属地:江苏来自iPhone客户端90楼2024-09-27 23:40
                  回复


                    IP属地:安徽来自Android客户端105楼2024-10-13 07:10
                    回复


                      IP属地:安徽来自Android客户端127楼2024-10-26 14:13
                      回复


                        IP属地:安徽来自Android客户端179楼2024-11-23 16:50
                        回复
                          sora 出来没有?


                          IP属地:广东来自Android客户端180楼2024-11-23 16:54
                          收起回复


                            IP属地:安徽来自Android客户端199楼2024-12-15 22:31
                            回复


                              IP属地:安徽来自Android客户端202楼2024-12-20 15:58
                              回复