174名北大学生对决AI,谁考得更好?

2025-12-27 19:28来源: 央视网

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem:他们以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界。

174名北大学生对决AI,谁考得更好?

  考试现场

  一场特殊的期中考

  在北京大学化学与分子工程学院,有机化学考试的期中考前,学生们收到突如其来的一条通知:“请注意,本次考试范围不仅限于有机化学。”

  除了考试范围的变化,考场里还迎来的一批“特殊考生”:GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,会在云端与174位北大化学与分子工程学院的大二学生同场竞技。

  这是一场精心设计的“图灵测试”,也是北大科研团队为大语言模型投下的一块“试金石”。

  晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……打开SUPERChem的题库,这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

  之所以要费尽周折重新出题,是“因为大模型太会‘背书’了。”团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读,但化学是一门不能只靠死记硬背的学科,既有严密的逻辑推演,又充满了对微观世界的空间想象。“我们非常好奇,大语言模型的一维 next token prediction,能否解决二维、甚至三维空间中的复杂推理问题。”

  要设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。为此,北大化院近百名师生——其中不乏奥林匹克金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。

  他们要考的,是AI是否真的“懂”化学。

174名北大学生对决AI,谁考得更好?

  SUPERChem总览与例题

  北大学生对决AI

  谁考得更好?

  在这场精心设计的考试中,人类展现出了复杂的科学直觉。

  作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。

  而AI的表现如何?

  即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。

174名北大学生对决AI,谁考得更好?

  前沿模型在SUPERChem上的表现

174名北大学生对决AI,谁考得更好?

  前沿模型的正确率与RPF关系

  让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。

174名北大学生对决AI,谁考得更好?

  输入模态对不同模型的影响

  然而,即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。

  团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。

174名北大学生对决AI,谁考得更好?

  推理断点所属化学能力分布

  让AI与人类对决

  意义何在?

  SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。

  据介绍,团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。SUPERChem就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。

  目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。

[责任编辑: ]
阅读剩余全文(
为你推荐
12月27日0时07分,我国在西昌卫星发射中心使用长征三号乙运载火箭,成功将风云四号03星发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。
27
12月26日9时50分许,随着G6800次列车从宜昌北站开出,沪渝蓉沿江高铁武汉至宜昌段正式开通运营。12月26日9时50分许,随着G6800次列车从宜昌北站开出,沪渝蓉沿江高铁武汉至宜昌段正式开通运营。
27
12月26日,第一缕晨光漫过江城武汉,黄鹤楼镀上一层柔和的金辉,静静伫立在霞光之中。12月26日,第一缕晨光漫过江城武汉,黄鹤楼镀上一层柔和的金辉,静静伫立在霞光之中。12月26日,第一缕晨光漫过江城武汉,黄鹤楼镀上一层柔和的金辉,静静伫立在霞光之中。
27
12月25日,由湖北交投集团投资建设、中铁十一局承建的咸宁桂花至汀泗高速公路与京广铁路交叉工程转体桥顺利完成转体。12月25日,由湖北交投集团投资建设、中铁十一局承建的咸宁桂花至汀泗高速公路与京广铁路交叉工程转体桥顺利完成转体。
26
12月21日,在位于深圳的全球创新旗舰店inno100,一名儿童与AI玩具Ropet互动。
26
近日,受冷空气影响,浙江省杭州市临安区大明山景区迎来降雪,呈现出银装素裹的冬日美景,吸引各地游客前来赏雪、玩雪。近日,受冷空气影响,浙江省杭州市临安区大明山景区迎来降雪,呈现出银装素裹的冬日美景,吸引各地游客前来赏雪、玩雪。
26
12月24日,在位于匡堰镇倡隆村的楝树下艺术村落的花丝镶嵌非遗工坊内,花丝镶嵌技艺传承人高聪在用点翠工艺制作花丝镶嵌工艺品。近年来,浙江省慈溪市匡堰镇通过打造艺术村落和文旅线路相融合,助力乡村特色产业和旅游业发展。
25
珠峰边境派出所的移民管理警察在珠峰核心区巡逻(12月24日摄)。珠峰边境派出所位于珠穆朗玛峰国家级自然保护区核心区,肩负边境管控、游客登记、应急救援以及登山科考保障等任务。
25
12月18日,唐和霞(前)和同事一起查看亚马逊电商平台的美心集团页面。唐和霞介绍,有些人以为跨境电商只是和外国人进行语言交流,但其实更需要了解海外客户的生活习惯、思维方式。
25
12月23日14时,哈尔滨市气象台发布暴雪黄色预警信号。12月23日14时,哈尔滨市气象台发布暴雪黄色预警信号。12月23日14时,哈尔滨市气象台发布暴雪黄色预警信号。12月23日14时,哈尔滨市气象台发布暴雪黄色预警信号。
24
载入更多资讯
返回
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮