首页 > 科技 >

首个AI高考全卷评测结果发布,最高分303,数学全不及格

发布时间:2024-07-03 02:29:29来源:网络转载
首个AI高考全卷评测结果发布
首个AI高考全卷评测结果是由上海人工智能实验室旗下的司南评测体系OpenCompass发布的。该评测采用了全国新课标I卷,选取了6个开源模型及GPT-4进行高考语数外全卷能力测试。评测结果表明,尽管大部分模型考生在语文和英语科目上表现良好,但在数学方面,所有模型的表现都不及格,平均得分率仅有36%。此外,最高的分数为303分,这也反映了目前AI在数学方面的局限性。

评测模型的得分情况


在参加评测的模型中,阿里通义千问2-72B获得了最高的分数,为303分,紧随其后的是OpenAI的GPT-4,得分296分,上海人工智能实验室的书生·浦语2.0排名第三。这三个大模型的得分率均超过了70%,显示出它们在高考模拟测试中的强大实力。

评测的重要性和意义


这次评测不仅为大模型技术的研发和应用提供了宝贵的实践经验和数据支持, 还展示了人工智能技术在教育领域应用的巨大潜力和挑战。随着技术的不断进步和应用的不断拓展,我们可以期待未来的人工智能将在更多领域展现出其独特的优势和价值。

AI在数学方面的局限性


数学科目成为了这些大模型考生的软肋。尽管其中一些模型在数学单科上取得了不错的成绩,但整体而言,数学仍是这些大模型需要进一步加强的方面。这也提示我们,在未来的大模型研发中,需要更加注重对数学等抽象思维能力的训练和提升。

结论


总的来说,首个AI高考全卷评测结果展示了AI在高考模拟测试中的能力,但也揭示了它们在数学方面的不足。这为未来的AI研发提供了重要的参考和方向,同时也让我们看到了人工智能在教育领域的应用前景。

本文链接:http://www.qingguangdun.com/content-25-2432-1.html

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。