测AI智商意义何在？

2025-04-03 08:20来源：瞭望东方周刊

　　本文刊载于《瞭望东方周刊》（2025年第7期，总第930期），原题为《测AI智商意义何在？》。

　　文丨《瞭望东方周刊》记者陈融雪

　　给AI测智商的尝试，本质上是一场人类认知框架的自我审视。

　　AI能有多聪明？2024年末，OpenAI宣布ChatGPT-o3在ARC-AGI（通用人工智能抽象和推理语料库）基准测试中取得157分，与爱因斯坦、霍金等人类顶尖智力标杆的推定智商比肩，这一消息迅速引爆舆论。

　　北京时间2025年2月18日，埃隆·马斯克旗下人工智能公司xAI发布其最新人工智能模型Grok 3，称它是“地球上最聪明的人工智能”。

　　然而，硅谷的庆功香槟尚未饮尽，另一组实验数据却在2025年1月撕开认知裂缝：2025年1月，非营利组织CAIS公布“人类终极考试”（HLE）测试结果，所有前沿AI在3000道跨学科难题前集体折戟，最高正确率不足10%。

　　给AI测智商的尝试，本质上是一场人类认知框架的自我审视。面壁智能联合创始人、首席科学家刘知远接受《瞭望东方周刊》采访时表示，人类应以更开放的心态，重新理解智能的本质——它既是解决问题的能力，也是提出问题的勇气，更是连接不同生命形式的桥梁。

　　在他看来，AI的智力觉醒，不在于能否在既有框架内超越人类，而在于能否打破“解题者”的宿命，像原始人发现火种般创造出全新的世界。

　　AI智力有几岁？

　　从结绳记事到神经网络，人类经历了漫长时间将智能外化；而今，我们正在见证智能脱离碳基载体后的第一次呼吸。

　　“和16岁孩子相比，其语言表达能力已达到160，语言推理归纳能力达145，这个水平在人类中不说绝顶聪明，也是万里挑一。”2025年2月，中国科学院心理研究所超常儿童研究中心负责人张兴利用韦氏儿童智力量表结合瑞文测试，给ChatGPT4、DeepSeek、kimi和豆包等当红人工智能大语言模型测智商后谨慎表示：“我不能客观地给它们打分（评估综合智商）。我能肯定的是，它们的学习能力相当惊人。”

　　以ChatGPT 4为例，张兴利团队让它做瑞文测试图形推理题时仅仅练习了两次，就从“什么都不会”进步到“做对12道题”。

　　“一个智商为100的5岁半孩子，60道题里差不多能做对16道题。但是，大语言模型应该算几岁？”张兴利告诉《瞭望东方周刊》，所谓智商，指个体的标准化智力测试结果在同龄人中的相对水平。一般而言，智商平均值设为100，呈正态分布，如果说一个人智商为130，意味着他的智力水平高过 97.7%的同龄人。

　　美国临床心理学家埃卡·罗瓦宁（Eka Roivainen）把人工智能大语言模型当成年人测了一下。在他看来，“ChatGPT几乎是一个完美的考生，它具有值得称赞的考试态度，不会表现出测试焦虑、注意力不集中或缺乏努力的情况”。

　　2023年3月21日，他用韦氏成人智力量表第三版给ChatGPT测智商，结果显示，ChatGPT的口头智商为155，高于构成美国标准化样本2450人的99.9%的考生。换言之，即使按成年人的标准看，ChatGPT的口头智商已达到美国样本人群的前1‰。

　　AI加速突破极限

　　人类一直在寻找一种适合量化AI聪明程度的评估体系。1950年，英国数学家艾伦·麦席森·图灵提出通过提问和人类裁判的办法，来判断一台计算机是否具有同人相称的智力（以下简称“图灵测试”）。但图灵测试过于依赖语言交流的能力，忽略了智能的其他维度。