语义学者:尚需进阶的“学术秘书”

2020-12-03 09:28来源: 《中国科学报》

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

“语义学者”有望在不久的将来成为学术搜索的标准工具。图片来源:Unsplash

  ■本报记者 张双虎

  据不完全统计,目前科学文献数量大约每9年增加一倍,科学家读完研究领域内的最新文献变得越来越困难。面对浩如烟海的文献资料,研究人员有时候甚至难以检索到急需的文献资料。

  如果有个“学术秘书”能免费替你做些文献方面“爬罗剔抉,刮垢磨光”的工作,你是不是想马上“来一打”?近日,位于美国西雅图的艾伦人工智能研究所在这方面做了些尝试。

  从搜索引擎到“语义学者”

  科研人员常借助学术搜索来寻找自己想要的资料。但有些学术搜索工具只为某一研究领域的专家服务,不同领域之间的关联不足,难以为跨界学者提供服务。还有一些专注科研领域的搜索引擎,偶尔也会检索出相当一部分非学术文档。更重要的是,从互联网上搜索到的资料容易出现令人啼笑皆非的差错,甚至数据也面临被篡改的风险。

  针对学术搜索引擎的种种不足,2015年,艾伦人工智能研究所首次推出“语义学者”。“语义学者”本质上是一个旨在解决信息过载问题的学术搜索引擎,它能帮助用户筛选科学论文,并在一定程度上理解检索到的论文内容。该搜索引擎检索的文献库最初集中在计算机科学,此后逐步向其他领域扩展。

  2016年,该研究所更新了“语义学者”的功能。比如,它可以从文本中挑选出最重要的关键词和短语,而不仅仅依赖作者或出版商所提供的论文关键词。它还能帮助科学家理解论文的内容,这一功能相比此前其他的学术搜索引擎令人耳目一新。与此同时,它还可以找出论文所引用的真正具有影响力的参考文献,并将论文中的数据呈现在搜索结果中,让搜索者一目了然。

  期待“智慧的灵魂”

  “简洁,是智慧的灵魂。”近日,艾伦人工智能研究所推出更新的“语义学者”系统时,引用莎士比亚剧作《哈姆雷特》中的一句话来“站台”。

  新款“语义学者”搭载人工智能并用于科学研究,可以将冗长的计算机科学论文进行一系列汇总,以节省审查此类文献的时间。该系统新的摘要功能,可以对大量科学研究论文进行分析,并将其简化为一句高度概括的话。

  目前,“语义学者”的数据库中有1000万篇计算机科学论文。据该数据库技术总监Dan Weld介绍,他们将逐步添加其他学科的论文。

  研究人员经常依赖论文标题和阅读冗长的摘要来甄别信息。在更习惯用手机、Pad等移动设备来完成各项工作的今天,“语义学者”的功能似乎更具优势。

  “经过早期测试,使用者的反馈是积极的。” 艾伦人工智能研究所研究员韦尔德说,“人们似乎很喜欢它。”

  近年来,研究人员开发出各种自然语言处理程序来汇总文档,它通常有两种方式。抽取式着重于选择代表性文本,并在摘要中逐字使用。例如,2018年开发的Paper Digest是提取关键句子,而不是自己来再次书写。抽象式则使用自然语言生成算法来创建全新的内容摘要。近年来,人工智能自然语言技术的发展,使这种方法成为程序员的首选。

  在所有具备汇总功能的搜索工具中,“语义学者”拥有最大的压缩率。对一篇约5000单词的科学论文来说,“语义学者”的摘要约为21个词。其平均压缩率为原文的1/238。目前最接近“语义学者”的竞争对手,只能将文档压缩到原文的1/36。

  “这还不是完美的,但是朝正确方向迈出的一步。”华盛顿大学教授Jevin West对该新程序进行测试后说,“我预计,这种工具将在不久的将来成为学术搜索的标准工具。”

  目前,该系统仅接受以英文撰写的论文,程序作者希望最终能包含其他语言的文档。艾伦研究所提供免费代码,还建立了一个向所有人开放的示范站点。

  “学术秘书”有待“实习”

  “‘语义学者’的核心是从长文中挖掘和压缩出关键语义,和搜索引擎的关键词不太一样。”北京理工大学自动化学院教授邓方告诉《中国科学报》,“即使有较大压缩率,该系统概括的准确性也可以通过大量的训练提高,所以准确率值得期待。系统对不同语言需要进行重新训练,所以对语言方面还有更大的改进空间。”

  “(语义学者在)工作方法上并没有太多创新。”中国科学院自动化所研究员张家俊对《中国科学报》介绍说,抽取式高效便捷,但总结能力一般;抽象式更接近人类概括大意时,先理解再总结的思路,但输入文本长度受限。其绝大多数情况下适用于对单篇文档做摘要总结,并且限于目标函数,导致压缩率太高,质量无法保证。

  张家俊认为,该系统一是构造了大规模的科技文本—短摘要数据集;二是利用科技论文—标题的自然标注数据作为额外的任务进行多任务学习;三是在预训练模型BART的基础上,针对短摘要生成任务进行微调。

  “由于他们提出了自己的数据集,这个数据集对应一个新的任务,‘语义学者’在这个数据集上获得了很好的效果,有比较好的应用。”张家俊说,“不过,也有需要改进的地方。一方面,很多文献非常长,与之相对目前仅支持5000个词的输入有些捉襟见肘;另一方面,即使可以输入5000个甚至更多单词,在模型上进行语义编码也有难度,这个方法的有效性还有待进一步观察。”

[责任编辑: 张梦凡 ]
阅读剩余全文(
为你推荐
“六一”国际儿童节临近,孩子们参加丰富多彩的活动,迎接属于自己的节日。“六一”国际儿童节临近,孩子们参加丰富多彩的活动,迎接属于自己的节日。“六一”国际儿童节临近,孩子们参加丰富多彩的活动,迎接属于自己的节日。
29
据农业农村部28日消息,截至5月28日17时,各地已收夏粮小麦4897万亩、当日机收面积超过1000万亩,今年全国“三夏”大规模小麦机收全面展开。农业农村部提前组织动员各地做好机收准备,联合交通运输、公安、气象等部门共同加强农机作业服务保障。
29
5月27日在云南省会泽县拍摄的正在建设的渝昆高铁会泽站(无人机照片)。目前, 渝(重庆)昆(昆明)高速铁路云南段全力推进项目建设,高铁站房及综合配套工程正紧张有序施工中。
29
规划建设北京城市副中心,是党中央作出的重大决策部署。”  “作为北京城市副中心的CBD,运河商务区累计完工超500万平方米,以通州区1%的面积,聚集全区超7%的企业、贡献超22%的税收。
28
高考临近,各学校组织高三年级学生开展形式多样的集体减压活动,让学生们放松心情,用乐观积极态度迎接高考。高考临近,各学校组织高三年级学生开展形式多样的集体减压活动,让学生们放松心情,用乐观积极态度迎接高考。
28
题:激活城市宜居新空间 口袋公园书写城市更新大文章 (受访者供图)  午后的沈阳市青年宫口袋公园,绿意盎然、环境整洁,各类童趣游乐设施错落排布,不少家长正陪伴孩子游玩嬉戏。
28
5月26日,救援人员在重庆市永川区茶山竹海街道安溪村救援现场作业。灾情发生后,当地迅速启动应急处置机制,统筹各方救援力量,全力开展抢险救援、基础设施抢修抢通等工作,积极推进灾后恢复。
27
2026世界智能产业博览会将于5月28日至31日在天津举办,本届博览会以“智行天下 能动未来”为主题,设置1个综合展区和人工智能核心技术、具身智能、智能网联车、低空经济与商业航天、智能制造、智慧生活等6个主题展区,并设有2个智能赛事馆,集中展示人工智能全方位赋能千行百业、服务美好生活的新技术、新产品、新场景。
27
汉南长江大桥是湖北省第44座长江大桥、武汉第13座长江过江通道,列入《长江干线过江通道布局规划(2020—2035年)》重点建设项目,属于国家高速公路网G9906武汉都市圈环线关键性控制性工程。
27
5月25日,第二十二届中国(深圳)国际文化产业博览交易会在深圳落下帷幕。5月25日,第二十二届中国(深圳)国际文化产业博览交易会在深圳落下帷幕。5月25日,第二十二届中国(深圳)国际文化产业博览交易会在深圳落下帷幕。
26
载入更多资讯
返回
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮