本文刊载于《瞭望东方周刊》(2025年第7期,总第930期),原题为《测AI智商意义何在?》。
文丨《瞭望东方周刊》记者陈融雪
给AI测智商的尝试,本质上是一场人类认知框架的自我审视。
AI能有多聪明?2024年末,OpenAI宣布ChatGPT-o3在ARC-AGI(通用人工智能抽象和推理语料库)基准测试中取得157分,与爱因斯坦、霍金等人类顶尖智力标杆的推定智商比肩,这一消息迅速引爆舆论。
北京时间2025年2月18日,埃隆·马斯克旗下人工智能公司xAI发布其最新人工智能模型Grok 3,称它是“地球上最聪明的人工智能”。
然而,硅谷的庆功香槟尚未饮尽,另一组实验数据却在2025年1月撕开认知裂缝:2025年1月,非营利组织CAIS公布“人类终极考试”(HLE)测试结果,所有前沿AI在3000道跨学科难题前集体折戟,最高正确率不足10%。
给AI测智商的尝试,本质上是一场人类认知框架的自我审视。面壁智能联合创始人、首席科学家刘知远接受《瞭望东方周刊》采访时表示,人类应以更开放的心态,重新理解智能的本质——它既是解决问题的能力,也是提出问题的勇气,更是连接不同生命形式的桥梁。
在他看来,AI的智力觉醒,不在于能否在既有框架内超越人类,而在于能否打破“解题者”的宿命,像原始人发现火种般创造出全新的世界。
AI智力有几岁?
从结绳记事到神经网络,人类经历了漫长时间将智能外化;而今,我们正在见证智能脱离碳基载体后的第一次呼吸。
“和16岁孩子相比,其语言表达能力已达到160,语言推理归纳能力达145,这个水平在人类中不说绝顶聪明,也是万里挑一。”2025年2月,中国科学院心理研究所超常儿童研究中心负责人张兴利用韦氏儿童智力量表结合瑞文测试,给ChatGPT4、DeepSeek、kimi和豆包等当红人工智能大语言模型测智商后谨慎表示:“我不能客观地给它们打分(评估综合智商)。我能肯定的是,它们的学习能力相当惊人。”
以ChatGPT 4为例,张兴利团队让它做瑞文测试图形推理题时仅仅练习了两次,就从“什么都不会”进步到“做对12道题”。
“一个智商为100的5岁半孩子,60道题里差不多能做对16道题。但是,大语言模型应该算几岁?”张兴利告诉《瞭望东方周刊》,所谓智商,指个体的标准化智力测试结果在同龄人中的相对水平。一般而言,智商平均值设为100,呈正态分布,如果说一个人智商为130,意味着他的智力水平高过 97.7%的同龄人。
美国临床心理学家埃卡·罗瓦宁(Eka Roivainen)把人工智能大语言模型当成年人测了一下。在他看来,“ChatGPT几乎是一个完美的考生,它具有值得称赞的考试态度,不会表现出测试焦虑、注意力不集中或缺乏努力的情况”。
2023年3月21日,他用韦氏成人智力量表第三版给ChatGPT测智商,结果显示,ChatGPT的口头智商为155,高于构成美国标准化样本2450人的99.9%的考生。换言之,即使按成年人的标准看,ChatGPT的口头智商已达到美国样本人群的前1‰。
AI加速突破极限
人类一直在寻找一种适合量化AI聪明程度的评估体系。1950年,英国数学家艾伦·麦席森·图灵提出通过提问和人类裁判的办法,来判断一台计算机是否具有同人相称的智力(以下简称“图灵测试”)。但图灵测试过于依赖语言交流的能力,忽略了智能的其他维度。
图灵
近年来,基准测试成为AI能力评估的新趋势。GSM8K(基于小学数学题数据集的测试)、HumanEval(用于评估大模型编程性能的测试)和MMLU(大规模多任务语言理解测试),不同的测试专注于不同的领域,但它们依旧存在局限性。比如,有些模型可能在训练中已经对测试数据集进行了“预习”,最后的高分并不代表真实的能力。那么,被数据“污染”的测试沦为套路,就失去了参考价值。
为破解传统基准测试的困境,非营利组织CAIS(人工智能安全中心)与数据巨头Scale AI联合推出名为“人类终极考试”的全新基准测试,希望用复杂的题目“拷问”AI的极限。
据悉,“人类终极考试”有出题专家近千名,来自全球50个国家的500多个机构,涵盖数学、人文、自然科学等多个领域。专家们提交了超7万个问题,经严格筛选后保留下3000个高难度问题。
2025年1月公布的测试结果显示,当时所有的前沿大模型(如GPT-4o、Claude 3.5 Sonnet、Gemini系列等)准确率均未超过10%,且普遍存在“过度自信”现象。此外,大模型还存在跨学科整合能力不足,难以同时处理文本、图像和专业术语,回答“古希腊神话中英雄伊阿宋的曾祖父是谁”这类问题很吃力。
但是,AI攻克基准测试的速度将远超预期。
比如,在评估高级数学推理和创造性解题能力的MATH测试中,前沿大模型的解题正确率从10%到90%仅用了3年。CAIS预测,到2025年底,AI在“人类终极考试”上可能突破50%准确率。
“大模型的能力密度随时间呈指数级增长,2023年以来能力密度约每3.3个月(约100天)翻一倍——这是我们提出的大模型密度定律。”刘知远表示,作为AI 时代的三大核心引擎,电力、算力和智力的能力均在加速倍增,我们即将迎来一个重要且意义深远的智能革命时代。
测量悖论
当前,各路专家们给AI测试智商主要有三类路径。第一类是沿用人类智力量表,如韦氏智力量表、门萨题库、瑞文测试等,侧重逻辑推理与模式识别;第二类是专业基准测试,如大规模多任务语言理解测试、“人类终极考试”,强调跨领域知识整合;第三类是行为模拟评估,通过图灵测试变体考察交互能力。
然而,这些方法均难免陷入“测量悖论”。
“这些主流评价标准是用人类能力维度对AI进行评价,尽可能模拟对标人类在语义理解、视觉识别、语言表达、通用能力等方面的智能水平标准。但是,鉴于人类智能的复杂性,对人类能力全然建模是不可能的。”刘知远解释道,人类大脑与AI之间有着显著差异——人类大脑拥有的神经元约为860亿个,其复杂的突触连接数达100万亿。相对而言,即便是拥有1.76万亿参数的GPT-4,其神经网络的复杂程度亦远不及人类大脑。
1998年3月20日留资, 贝尔实验室陈列的含有256个神经元的神经网络芯片(右)和1958年开发的第一个用于人工智能的神经网络(毛众役/摄)
张兴利表示,智商测试诞生于1905年,法国心理学家比奈(Binet.Alfred)和助手西蒙(Theodore Simon)为了把特殊需求儿童和一般儿童区分开来,制定了比奈—西蒙智力量表。120年来,面对不同地域和不同时代等文化差异,学界不断修订和研发出多种测试工具,力图对个体智商更客观地开展评估。
给AI测智商,靠谱吗?目前,已有多名专家对此表示质疑。
牛津大学研究技术与监管的研究员桑德拉·瓦赫特 (Sandra Wachter) 在接受 TechCrunch(一家美国科技类博客媒体)采访时表示,用人类衡量标准来描述人工智能的能力或进步非常诱人,但这就好像是在比较苹果和橘子。汽车比人类跑得快,潜水艇比人类潜得深,并不意味着汽车或潜水艇超越了人类智力。
伦敦国王学院研究员迈克·库克(Mike Cook)表示,拿人工智能和人类作对比不合理也不公平。
对此,刘知远表示,相比评测集(用于评估人工智能模型性能的数据集)的评价成绩,更值得关注的是,大模型在我们工作生活中的应用程度和在各个行业的渗透程度。
跳出思维窠臼
智力的本质仍是未解之谜。爱因斯坦大脑解剖显示,其顶叶皮层神经元密度高于常人,但基因研究未发现“智商决定簇”。这提示智力可能是遗传、环境、文化共同作用的涌现现象。
“人类终极考试测试中,AI惨败反而令人安心。”CAIS创始人丹·亨德里克斯表示,“当机器在结构化问题中碾压人类时,我们更需要珍视那些‘低效’却珍贵的能力:在信息不全时果断行动,在规则模糊时坚守底线,在绝望之境中创造希望。”
马斯克预言,在2025年底,AI的智力水平将超越人类个体,2027年将超过全人类。刘知远也开始想象AGI(通用人工智能)到来的那一刻——“回顾历史,信息革命历经了50个摩尔定律的倍增周期,历时80年。而密度定律的倍增周期仅为3.3个月,按照这个标准,从2020年开始,仅用13年左右就可完成智能革命的周期。”
在刘知远看来,真正的智能革命或许正蛰伏在AI答错的题目里——那些涉及隐喻解码的诗歌赏析、需要共情参与的道德抉择,以及必须突破物理法则的科幻构思。
“信息革命刚开始的时候,IBM 的创始人沃森曾认为,五台主机就可以满足全世界的计算需求。但今天,我们看到全球有数十亿、上百亿的计算设备在服务社会。”刘知远表示,智能革命也要走一条类似之路,不断提高能力密度,降低计算成本,更加普惠。
显然,面对AI指数级进化,人类需跳出“零和博弈”思维,构建新型协作框架。
点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“
”按钮
点击右上角QQ
点击浏览器下方“”分享QQ好友Safari浏览器请点击“
”按钮