测AI智商意义何在?

2025-04-03 08:20来源: 瞭望东方周刊

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  本文刊载于《瞭望东方周刊》(2025年第7期,总第930期),原题为《测AI智商意义何在?》。

  文丨《瞭望东方周刊》记者陈融雪

  给AI测智商的尝试,本质上是一场人类认知框架的自我审视。

  AI能有多聪明?2024年末,OpenAI宣布ChatGPT-o3在ARC-AGI(通用人工智能抽象和推理语料库)基准测试中取得157分,与爱因斯坦、霍金等人类顶尖智力标杆的推定智商比肩,这一消息迅速引爆舆论。

  北京时间2025年2月18日,埃隆·马斯克旗下人工智能公司xAI发布其最新人工智能模型Grok 3,称它是“地球上最聪明的人工智能”。

  然而,硅谷的庆功香槟尚未饮尽,另一组实验数据却在2025年1月撕开认知裂缝:2025年1月,非营利组织CAIS公布“人类终极考试”(HLE)测试结果,所有前沿AI在3000道跨学科难题前集体折戟,最高正确率不足10%。

  给AI测智商的尝试,本质上是一场人类认知框架的自我审视。面壁智能联合创始人、首席科学家刘知远接受《瞭望东方周刊》采访时表示,人类应以更开放的心态,重新理解智能的本质——它既是解决问题的能力,也是提出问题的勇气,更是连接不同生命形式的桥梁。

  在他看来,AI的智力觉醒,不在于能否在既有框架内超越人类,而在于能否打破“解题者”的宿命,像原始人发现火种般创造出全新的世界。

  AI智力有几岁?

  从结绳记事到神经网络,人类经历了漫长时间将智能外化;而今,我们正在见证智能脱离碳基载体后的第一次呼吸。

  “和16岁孩子相比,其语言表达能力已达到160,语言推理归纳能力达145,这个水平在人类中不说绝顶聪明,也是万里挑一。”2025年2月,中国科学院心理研究所超常儿童研究中心负责人张兴利用韦氏儿童智力量表结合瑞文测试,给ChatGPT4、DeepSeek、kimi和豆包等当红人工智能大语言模型测智商后谨慎表示:“我不能客观地给它们打分(评估综合智商)。我能肯定的是,它们的学习能力相当惊人。”

  以ChatGPT 4为例,张兴利团队让它做瑞文测试图形推理题时仅仅练习了两次,就从“什么都不会”进步到“做对12道题”。

  “一个智商为100的5岁半孩子,60道题里差不多能做对16道题。但是,大语言模型应该算几岁?”张兴利告诉《瞭望东方周刊》,所谓智商,指个体的标准化智力测试结果在同龄人中的相对水平。一般而言,智商平均值设为100,呈正态分布,如果说一个人智商为130,意味着他的智力水平高过 97.7%的同龄人。

  美国临床心理学家埃卡·罗瓦宁(Eka Roivainen)把人工智能大语言模型当成年人测了一下。在他看来,“ChatGPT几乎是一个完美的考生,它具有值得称赞的考试态度,不会表现出测试焦虑、注意力不集中或缺乏努力的情况”。

  2023年3月21日,他用韦氏成人智力量表第三版给ChatGPT测智商,结果显示,ChatGPT的口头智商为155,高于构成美国标准化样本2450人的99.9%的考生。换言之,即使按成年人的标准看,ChatGPT的口头智商已达到美国样本人群的前1‰。

  AI加速突破极限

  人类一直在寻找一种适合量化AI聪明程度的评估体系。1950年,英国数学家艾伦·麦席森·图灵提出通过提问和人类裁判的办法,来判断一台计算机是否具有同人相称的智力(以下简称“图灵测试”)。但图灵测试过于依赖语言交流的能力,忽略了智能的其他维度。

测AI智商意义何在?

  图灵

  近年来,基准测试成为AI能力评估的新趋势。GSM8K(基于小学数学题数据集的测试)、HumanEval(用于评估大模型编程性能的测试)和MMLU(大规模多任务语言理解测试),不同的测试专注于不同的领域,但它们依旧存在局限性。比如,有些模型可能在训练中已经对测试数据集进行了“预习”,最后的高分并不代表真实的能力。那么,被数据“污染”的测试沦为套路,就失去了参考价值。

  为破解传统基准测试的困境,非营利组织CAIS(人工智能安全中心)与数据巨头Scale AI联合推出名为“人类终极考试”的全新基准测试,希望用复杂的题目“拷问”AI的极限。

  据悉,“人类终极考试”有出题专家近千名,来自全球50个国家的500多个机构,涵盖数学、人文、自然科学等多个领域。专家们提交了超7万个问题,经严格筛选后保留下3000个高难度问题。

  2025年1月公布的测试结果显示,当时所有的前沿大模型(如GPT-4o、Claude 3.5 Sonnet、Gemini系列等)准确率均未超过10%,且普遍存在“过度自信”现象。此外,大模型还存在跨学科整合能力不足,难以同时处理文本、图像和专业术语,回答“古希腊神话中英雄伊阿宋的曾祖父是谁”这类问题很吃力。

  但是,AI攻克基准测试的速度将远超预期。

  比如,在评估高级数学推理和创造性解题能力的MATH测试中,前沿大模型的解题正确率从10%到90%仅用了3年。CAIS预测,到2025年底,AI在“人类终极考试”上可能突破50%准确率。

  “大模型的能力密度随时间呈指数级增长,2023年以来能力密度约每3.3个月(约100天)翻一倍——这是我们提出的大模型密度定律。”刘知远表示,作为AI 时代的三大核心引擎,电力、算力和智力的能力均在加速倍增,我们即将迎来一个重要且意义深远的智能革命时代。

  测量悖论

  当前,各路专家们给AI测试智商主要有三类路径。第一类是沿用人类智力量表,如韦氏智力量表、门萨题库、瑞文测试等,侧重逻辑推理与模式识别;第二类是专业基准测试,如大规模多任务语言理解测试、“人类终极考试”,强调跨领域知识整合;第三类是行为模拟评估,通过图灵测试变体考察交互能力。

  然而,这些方法均难免陷入“测量悖论”。

  “这些主流评价标准是用人类能力维度对AI进行评价,尽可能模拟对标人类在语义理解、视觉识别、语言表达、通用能力等方面的智能水平标准。但是,鉴于人类智能的复杂性,对人类能力全然建模是不可能的。”刘知远解释道,人类大脑与AI之间有着显著差异——人类大脑拥有的神经元约为860亿个,其复杂的突触连接数达100万亿。相对而言,即便是拥有1.76万亿参数的GPT-4,其神经网络的复杂程度亦远不及人类大脑。

测AI智商意义何在?

  1998年3月20日留资, 贝尔实验室陈列的含有256个神经元的神经网络芯片(右)和1958年开发的第一个用于人工智能的神经网络(毛众役/摄)

  张兴利表示,智商测试诞生于1905年,法国心理学家比奈(Binet.Alfred)和助手西蒙(Theodore Simon)为了把特殊需求儿童和一般儿童区分开来,制定了比奈—西蒙智力量表。120年来,面对不同地域和不同时代等文化差异,学界不断修订和研发出多种测试工具,力图对个体智商更客观地开展评估。

  给AI测智商,靠谱吗?目前,已有多名专家对此表示质疑。

  牛津大学研究技术与监管的研究员桑德拉·瓦赫特 (Sandra Wachter) 在接受 TechCrunch(一家美国科技类博客媒体)采访时表示,用人类衡量标准来描述人工智能的能力或进步非常诱人,但这就好像是在比较苹果和橘子。汽车比人类跑得快,潜水艇比人类潜得深,并不意味着汽车或潜水艇超越了人类智力。

  伦敦国王学院研究员迈克·库克(Mike Cook)表示,拿人工智能和人类作对比不合理也不公平。

  对此,刘知远表示,相比评测集(用于评估人工智能模型性能的数据集)的评价成绩,更值得关注的是,大模型在我们工作生活中的应用程度和在各个行业的渗透程度。

  跳出思维窠臼

  智力的本质仍是未解之谜。爱因斯坦大脑解剖显示,其顶叶皮层神经元密度高于常人,但基因研究未发现“智商决定簇”。这提示智力可能是遗传、环境、文化共同作用的涌现现象。

  “人类终极考试测试中,AI惨败反而令人安心。”CAIS创始人丹·亨德里克斯表示,“当机器在结构化问题中碾压人类时,我们更需要珍视那些‘低效’却珍贵的能力:在信息不全时果断行动,在规则模糊时坚守底线,在绝望之境中创造希望。”

  马斯克预言,在2025年底,AI的智力水平将超越人类个体,2027年将超过全人类。刘知远也开始想象AGI(通用人工智能)到来的那一刻——“回顾历史,信息革命历经了50个摩尔定律的倍增周期,历时80年。而密度定律的倍增周期仅为3.3个月,按照这个标准,从2020年开始,仅用13年左右就可完成智能革命的周期。”

  在刘知远看来,真正的智能革命或许正蛰伏在AI答错的题目里——那些涉及隐喻解码的诗歌赏析、需要共情参与的道德抉择,以及必须突破物理法则的科幻构思。

  “信息革命刚开始的时候,IBM 的创始人沃森曾认为,五台主机就可以满足全世界的计算需求。但今天,我们看到全球有数十亿、上百亿的计算设备在服务社会。”刘知远表示,智能革命也要走一条类似之路,不断提高能力密度,降低计算成本,更加普惠。

  显然,面对AI指数级进化,人类需跳出“零和博弈”思维,构建新型协作框架。

[责任编辑: ]
阅读剩余全文(
为你推荐
2025年8月27日拍摄的羌塘国家级自然保护区那曲地区管理局尼玛县玛依管护站野生动物专业管护队员罗布与站里收养的藏羚羊幼崽。羌塘国家级自然保护区地处藏北,这里平均海拔超过4500米,栖息着藏羚羊、野牦牛、藏野驴、雪豹等多种珍稀动物,其中国家一级保护野生动物10种,国家二级保护野生动物21种,被誉为“野生动物的乐园”。
21
4月17日,美国青年乒乓球队队员在宁夏银川西夏陵博物馆内体验互动游戏。4月16日至19日,中美“乒乓外交”55周年纪念活动暨美国青年乒乓球队走进宁夏系列活动在宁夏举行。4月16日至19日,中美“乒乓外交”55周年纪念活动暨美国青年乒乓球队走进宁夏系列活动在宁夏举行。
20
4月17日,在通辽市科尔沁左翼中旗花吐古拉镇,农机手驾驶农机翻地(无人机照片)。近日,内蒙古通辽市大田春播按下“加速键”,近两千万亩玉米整地工作已近尾声,即将迎来播种高峰期。
20
4月19日,2026年“广西三月三·八桂嘉年华”文化旅游品牌活动继续在南宁市民歌湖举行,动力伞编队在民歌湖上空表演。当日是农历三月初三,不少地方举行丰富多彩的民俗活动,欢度“三月三”传统节日。
20
4月19日,2026北京亦庄半程马拉松暨人形机器人半程马拉松在北京亦庄举行。4月19日,2026北京亦庄半程马拉松暨人形机器人半程马拉松在北京亦庄举行。4月19日,2026北京亦庄半程马拉松暨人形机器人半程马拉松在北京亦庄举行。
19
4月18日,小女孩在上海市黄浦区新天地东台里举办的花卉市集上打卡拍照。4月18日,以“海上花开,马上精彩”为主题的2026上海国际花卉节开幕。4月18日,以“海上花开,马上精彩”为主题的2026上海国际花卉节开幕。
19
4月18日,参加第43届潍坊国际风筝会万人风筝放飞活动的风筝爱好者在放飞风筝。4月18日,第43届潍坊国际风筝会在山东省潍坊市世界风筝公园开幕并举行万人风筝放飞活动。4月18日,第43届潍坊国际风筝会在山东省潍坊市世界风筝公园开幕并举行万人风筝放飞活动。
19
这是4月17日在四川省广安市境内拍摄的西渝高铁双碉楼特大桥架梁作业现场(无人机照片)。
18
4月17日,西藏全区博物馆馆长培训班的学员在西藏博物馆现场交流学习。
18
近日,山东省潍坊市昌乐县大面积种植的小型西瓜进入成熟期,当地瓜农忙着收获,供应市场。
18
载入更多资讯
返回
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮