数学吧 关注:902,022贴子:8,798,726
  • 4回复贴,共1

三大AI做困难高中数学试卷,DeepSeek碾压式胜利

只看楼主收藏回复

为了测出不同AI的解题能力,楼主把以前自制的一套非常难的高中数学试卷逐题喂给了三个主流AI:DeepSeek V3(深度思考,未联网),通义千问-max,文心3.5(唯一免费),下表是它们的表现。我把预计的母校平均分(去年500人211率93%)也列在了表上,方便比较。(kimi和豆包就不用测了,过于菜)
试卷链接:https://tieba.baidu.com/p/9276745705?pid=151252022557&cid=0#151252022557
得分(满分150,校平均预计40分【考试时间无限】):DS:116分;通义max:55分;文心3.5:25分

结论:
1. DeepSeek V3(深度思考,未联网)能力碾压式地强,几何也非常强;但耗时很长,比人做还长
2. 通义千问-max其次,几何较弱
3. 文心3.5最菜,几何极差,整体水平比不上高中生(校平均分)
备注:未测试含图片的题目,几何题仅提供准确的文字描述
感想:没想到DS的数学这么强!太超乎想象了另外,此次测试中DS解几、导数表现较弱


IP属地:四川1楼2025-02-25 03:04回复
    就在刚刚,qwen2.5MAX也出思考模型了,文心一言3.5真不如豆包和kimi


    IP属地:湖南来自Android客户端2楼2025-02-25 08:29
    收起回复
      顶下帖,单机贴吧


      IP属地:四川来自Android客户端3楼2025-02-25 18:12
      回复