Telegram Group & Telegram Channel
继上次不少媒体拿大模型做了高考数学题以后,今年的高考全科真题测评结果也出来了,不过这次进行测评的是字节Seed团队,很明显能看出,他们对上次豆包的高考数学成绩是充满意外和惊喜的,也在摩拳擦掌想试试看它在全科试题里会表现如何。

老规矩,这次参战的5个大模型,仍然是市面上各种跑分都名列前茅的选手:Gemini 2.5Pro、DeepSeek R1、Claude 4、OpenAI o3,以及Seed1.6-Thinking。

高考其实是一种非常典型的测试场景,既能达到测试大模型泛化能力的目的,同时又兼具很高的实用性,也不难想象类似的使用场景,应该可以在教学、科研等方面发挥更大价值。

这次做的是「山东版」高考全科试卷,分文理科排名,为了确保公平,不仅评测方式完全对齐高考判卷方法,开放题由两名有资深联考判卷经验的高中老师进行评估,而且大模型也没有引入任何提示词工程,所有输入都是高考原题。

简单来说,这跟一名真实考生做卷子的环境几乎没有区别。

还是先说结论,大模型的整体能力目前已经能拿到一个相当高的分数,其中位列文、理科头名的豆包和Gemini,分别拿到了文科683和理科655分的成绩——这分数甚至可以冲击一下清北——截取一些测评结果里的关键信息给你们看看:

- 不出意料的,大模型表现最好的学科是英语,几家测评成绩都很接近,难以拉开差距;

- 普遍得分最低的学科是化学和生物,不过这跟试题本身有关,这两个学科涉及到的读图题很多,由于这套试题不是官方发布,所以有些图比较模糊,直接造成了大模型的失分;

- 豆包在语文、英语、物理、地理、历史、政治六门学科里均拿到了最高分,其中文科类目里的地理、历史、政治优势明显,事实证明在不同语种的语境里,大模型的表现可能是天差地别的;

- 与豆包相反,Gemini的理科表现很强劲,哪怕在图不清楚的情况下,化学、生物仍然拿到了最高分,它与豆包的路线差别很有观察价值;

- 跟上次高考数学的测评结果略有差异,这次数学学科的榜首是DeepSeek,不过同样与其他大模型差距很小;

- GPT o3又开始整活,上次它是唯一一个在数学客观题上丢分的大模型,结果这次语文作文直接写跑题了,这导致o3的语文分数成了所有大模型语数英主科15份成绩里,唯一一个没有过百的...

- 在发现了化学、生物的读图问题后,测试团队找到了一份更高清版本的试卷,并且采用图文交织的方式把这两科重做了一遍,结果发现豆包通过这种方式,两科总分还能再提高30分左右,这就意味着图文同步的全模态推理,可以更大程度激发模型潜力,很值得深究;

- 目前看来,大模型的视觉方案进步神速,但毕竟视觉的TOKENS消耗要比普通任务高得多,所以它眼下要解决的主要问题,还是如何降本;

- 除了高考全科真题外,测试团队还进行了另一项印度理工学院JEE Advanced的考试测评,题目全部采用图片输入,总分仍然是Gemini和豆包领先,甚至两个模型的成绩,已经可以进到印度TOP 10了。

当然,大费周章做这么多测试,倒不是说它是测量大模型能力的唯一标准,比如今年年初AI行业知名的HLE基准刚出现的时候,各大主流模型的得分普遍低于10%,但HLE的开发团队也说了,按照历史规律来看,今年年底这个数字可能就会有50%。

我的意思是,无论人类如何绞尽脑汁让AI做题,把题目通关也都是假以时日的问题,但这不代表做题成绩就没有意义了,重要的是不断精进学习的过程,也是探索AI究竟能多大程度上为人类所用的必要步骤。

已经开始期待明年高考,AI会给我们一番怎样的景象了。



tg-me.com/aigc1024/10724
Create:
Last Update:

继上次不少媒体拿大模型做了高考数学题以后,今年的高考全科真题测评结果也出来了,不过这次进行测评的是字节Seed团队,很明显能看出,他们对上次豆包的高考数学成绩是充满意外和惊喜的,也在摩拳擦掌想试试看它在全科试题里会表现如何。

老规矩,这次参战的5个大模型,仍然是市面上各种跑分都名列前茅的选手:Gemini 2.5Pro、DeepSeek R1、Claude 4、OpenAI o3,以及Seed1.6-Thinking。

高考其实是一种非常典型的测试场景,既能达到测试大模型泛化能力的目的,同时又兼具很高的实用性,也不难想象类似的使用场景,应该可以在教学、科研等方面发挥更大价值。

这次做的是「山东版」高考全科试卷,分文理科排名,为了确保公平,不仅评测方式完全对齐高考判卷方法,开放题由两名有资深联考判卷经验的高中老师进行评估,而且大模型也没有引入任何提示词工程,所有输入都是高考原题。

简单来说,这跟一名真实考生做卷子的环境几乎没有区别。

还是先说结论,大模型的整体能力目前已经能拿到一个相当高的分数,其中位列文、理科头名的豆包和Gemini,分别拿到了文科683和理科655分的成绩——这分数甚至可以冲击一下清北——截取一些测评结果里的关键信息给你们看看:

- 不出意料的,大模型表现最好的学科是英语,几家测评成绩都很接近,难以拉开差距;

- 普遍得分最低的学科是化学和生物,不过这跟试题本身有关,这两个学科涉及到的读图题很多,由于这套试题不是官方发布,所以有些图比较模糊,直接造成了大模型的失分;

- 豆包在语文、英语、物理、地理、历史、政治六门学科里均拿到了最高分,其中文科类目里的地理、历史、政治优势明显,事实证明在不同语种的语境里,大模型的表现可能是天差地别的;

- 与豆包相反,Gemini的理科表现很强劲,哪怕在图不清楚的情况下,化学、生物仍然拿到了最高分,它与豆包的路线差别很有观察价值;

- 跟上次高考数学的测评结果略有差异,这次数学学科的榜首是DeepSeek,不过同样与其他大模型差距很小;

- GPT o3又开始整活,上次它是唯一一个在数学客观题上丢分的大模型,结果这次语文作文直接写跑题了,这导致o3的语文分数成了所有大模型语数英主科15份成绩里,唯一一个没有过百的...

- 在发现了化学、生物的读图问题后,测试团队找到了一份更高清版本的试卷,并且采用图文交织的方式把这两科重做了一遍,结果发现豆包通过这种方式,两科总分还能再提高30分左右,这就意味着图文同步的全模态推理,可以更大程度激发模型潜力,很值得深究;

- 目前看来,大模型的视觉方案进步神速,但毕竟视觉的TOKENS消耗要比普通任务高得多,所以它眼下要解决的主要问题,还是如何降本;

- 除了高考全科真题外,测试团队还进行了另一项印度理工学院JEE Advanced的考试测评,题目全部采用图片输入,总分仍然是Gemini和豆包领先,甚至两个模型的成绩,已经可以进到印度TOP 10了。

当然,大费周章做这么多测试,倒不是说它是测量大模型能力的唯一标准,比如今年年初AI行业知名的HLE基准刚出现的时候,各大主流模型的得分普遍低于10%,但HLE的开发团队也说了,按照历史规律来看,今年年底这个数字可能就会有50%。

我的意思是,无论人类如何绞尽脑汁让AI做题,把题目通关也都是假以时日的问题,但这不代表做题成绩就没有意义了,重要的是不断精进学习的过程,也是探索AI究竟能多大程度上为人类所用的必要步骤。

已经开始期待明年高考,AI会给我们一番怎样的景象了。

BY AI探索指南


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/aigc1024/10724

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

Dump Scam in Leaked Telegram Chat

A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.

What is Secret Chats of Telegram

Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.

telegram from us


Telegram AI探索指南
FROM USA