据英国《新科学家》周刊网站11月20日报道,研究人员利用聊天生成预训练转换器(ChatGPT)采用的人工智能(AI)模型,对1000多名真人进行模拟实验,成功地以高精度复制了他们各自独特的思想与个性。该实验引发了以这种方式模拟个人可能带来的伦理方面担忧。 美国斯坦福大学的朴骏升(音)及其同事想用生成式人工智能工具建立个人模型,以此预测政府政策变化带来的影响。过去一直采用基于规则、过于简单化的统计模型预测,但效果有限。
朴骏升说:“我们以前其实必须大大简化人的行为,才能建立这些模型。我们现在有机会创建真正高保真的个人模型。我们可以打造捕捉到大量复杂性和独特性的真人代理。”
为了打造人工智能生成的代理,研究团队在美国招募了具有广泛人口代表性的1052人。每个参与者与语音版GPT-4o进行2小时对谈;GPT-4o是驱动ChatGPT的最先进模型版本。该人工智能模型让参与者讲述他们的生活经历及其对社会问题的看法,按照研究人员给出的基本脚本提问,根据指令听取实时回答,并根据需要调整其问题。然后,研究人员将每场对谈的人工智能生成内容输入GPT-4o的不同实例,要求模型模仿每个人。
研究团队广泛测试了每个人工智能代理,包括长期社会态度调查(被称为“综合社会调查”),“五大”人格特征评估、五种行为经济博弈以及五种社会科学实验。那些真人参与者也接受了两次相同的测试,间隔时间为两周。 总体而言,人工智能代理严格遵循了参与者对测试的回答。真人参与者在两次测试中没有给出相同的回答,两次“综合社会调查”的回答之间的匹配度大约为81%。相应的,人工智能代理的回答与真人参与者第一次测试的回答相比,原始准确率约为69%;考虑到真人参与者两次测试的回答也不相同,这说明人工智能代理的准确度实际为85%。其他测试的准确度虽然略低一些,但也差不多。生成式代理在匹配真人个体回答方面超过了基于人口统计、较为简单的模型,匹配度比后者高出14个百分点。
朴骏升说,自己的“核心动机”是为决策者提供更好的工具,以更细致的方式、而不是粗线条的人口统计模型,测试其政策建议带来的影响。虽然有人可能担心复制人类情感的能力将成为营销人员的获利金矿,但是生成式代理及其潜在数据的应用将“严格用于学术目的”。 英国索尔福德大学的理查德·惠特尔说:“有效模拟人类行为以测试政策影响,其潜力巨大。对模拟代表组进行竞选战略测试的能力是极其有用的。”他指出,政治家也可以利用这些工具,以比目前使用的焦点小组或民调等方法更迅速且成本效益更高的方式,测试竞选口号。 不过,惠特尔告诫说:“人类行为非常复杂而且会视情况而变。模拟组也许非常有用,但是如果情况发生重大变化,人类的回应可能仍是首选。” 英国斯塔福德郡大学的凯瑟琳·弗利克说,这方面过早依赖人工智能代理可能会带来问题。她说:“虽然这的确是有趣的研究,我认为它存在一些潜在问题。人工智能代理永远不会理解任何事情,因为它们无法理解置身群体是什么感觉。”(编译/郑国仪)
点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮
点击右上角QQ
点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮