为了测出不同AI的解题能力,楼主把以前自制的一套非常难的高中数学试卷逐题喂给了三个主流AI:DeepSeek V3(深度思考,未联网),通义千问-max,文心3.5(唯一免费),下表是它们的表现。我把预计的母校平均分(去年500人211率93%)也列在了表上,方便比较。(kimi和豆包就不用测了
,过于菜)
试卷链接:https://tieba.baidu.com/p/9276745705?pid=151252022557&cid=0#151252022557
得分(满分150,校平均预计40分【考试时间无限】):DS:116分;通义max:55分;文心3.5:25分

结论:
1. DeepSeek V3(深度思考,未联网)能力碾压式地强,几何也非常强;但耗时很长,比人做还长
2. 通义千问-max其次,几何较弱
3. 文心3.5最菜,几何极差,整体水平比不上高中生(校平均分)
备注:未测试含图片的题目,几何题仅提供准确的文字描述
感想:没想到DS的数学这么强!太超乎想象了
另外,此次测试中DS解几、导数表现较弱


试卷链接:https://tieba.baidu.com/p/9276745705?pid=151252022557&cid=0#151252022557
得分(满分150,校平均预计40分【考试时间无限】):DS:116分;通义max:55分;文心3.5:25分

结论:
1. DeepSeek V3(深度思考,未联网)能力碾压式地强,几何也非常强;但耗时很长,比人做还长
2. 通义千问-max其次,几何较弱
3. 文心3.5最菜,几何极差,整体水平比不上高中生(校平均分)
备注:未测试含图片的题目,几何题仅提供准确的文字描述
感想:没想到DS的数学这么强!太超乎想象了

