首页 社会 正文

Nature:16年前的论文生成软件SCIgen至今仍有人用,骗过同行评审,论文被接收

机器之心报道 编辑:杜伟 计算机程序自动生成的逻辑不通的论文也能被接收,你敢信?然而,在计算机科学领域,这种事…

机器之心报道

编辑:杜伟

计算机程序自动生成的逻辑不通的论文也能被接收,你敢信?然而,在计算机科学领域,这种事情的的确确在发生着。近日,Nature 的一篇文章揭露了由计算机程序 SCIgen 自动生成的论文,数据显示「一百万篇文章中,有 75 篇论文是由该程序生成」。虽然占比不高,但也表明了计算机科学领域中某些学者的浑水摸鱼取得了成功,这是对同行评审制度和学术研究诚实性的巨大侮辱。

文章截图

文章地址:https://www.nature.com/articles/d41586-021-01436-7

进入正文前,先来了解一下计算机程序 SCIgen 到底是什么?

2005 年,纯粹出于娱乐目的,就读于 MIT 的三位计算机博士生 Jeremy Stribling、Daniel Aguayo 和 Maxwell Krohn 创建了一个能够生成无意义英文计算机科学研究论文的计算机程序 SCIgen,它使用用户定制的上下文无关语言生成论文的各类组成元素,包括图片、表格、流程图和文献等。

文章截图

正是这三位老哥创建了 SCIgen 软件,自左向右依次是 Dan Aguayo、Max Krohn 和 Jeremy Stribling。摄自:Frank Dabek

他们使用 SCIgen 生成了论文《 Rooter: A Methodology for the Typical Unification of Access Points and Redundancy 》,投在了当年的 WMSCI(World Multiconference on Systemics, Cybernetics and Informatics)会议上。没想到该会议不仅接收了这篇论文,还邀请三位作者出席会议做报告。

文章截图

论文地址:https://pdos.csail.mit.edu/archive/scigen/rooter.pdf

不过,三位作者将 SCIgen 自动生成的论文被 WMSCI 会议接收的消息捅了出去,立即引起了科研圈的广泛关注。WMSCI 会议颜面扫地,撤回了对他们的报告邀请。这堪称当年学术圈的「一出闹剧」。这个计算机程序免费下载,任何人都可以使用。之后数年,SCIgen 自动生成的其他论文也多次被一些期刊和会议录用。

可没想到,这么多年过去了,计算机科学领域依然有学者使用这个计算机程序来生成论文,并且有的依然被接收了,真是不可思议!

学者「浑水摸鱼」,使用 SCIgen 生成论文

2012 年,法国计算机科学家 Cyril Labb é 在 IEEE 举办的会议上发现了 85 篇 SCIgen 生成的论文,接着又在 IEEE 和 Springer 发表的论文中发现了 120 多篇 SCIgen 生成的论文。不清楚是谁生成了这些论文,有的论文后来被撤回或删除。

2013 年,Labb é 创建了一个检测 SCIgen 生成论文的网站,任何人都可以上传论文原稿,确认论文是否由 SCIgen 生成。

文章截图

网站地址:http://scigendetection.imag.fr/main.php

2015 年,Labb é 又与 Springer 联合资助了一个博士项目,帮助检测 SCIgen 生成的论文,并创建了免费的软件 SciDetect。

文章截图

网站地址:https://www.springer.com/gp/about-springer/media/press-releases/corporate/scidetect/54166

最初,Labb é 通过搜索 SCIgen 词汇表中的典型词汇来判断论文是否出自 SCIgen。但之后,他改变了检索方式。他与另一位来自法国图卢兹大学的计算机科学家 Guillaume Cabanac 想到了一个新方法:搜索 SCIgen 输出中的典型短语。自 2020 年 5 月,他们在 Dimensions 数据库中的数百万篇论文中搜索了此类短语。在定位到此类短语之后,他们又进行了手动检查,结果发现了 243 篇完全或部分由 SCIgen 生成的无意义论文,并于近日在 ASIS&T 上公布了相关结果。

文章截图

243 篇由 SCIgen 生成的论文。

数据显示,243 篇论文大部分属于计算机科学领域,自 2008 至 2020 年在不同的期刊、学术会议和预印本网站上发表。有的论文开放阅读,有的需要权限。其中,有 46 篇已被首次发表它们的网站撤回或删除。

文章截图

从下图可以看到,IEEE、ACM、IAES 等期刊和会议都曾发表过这些论文。

文章截图

此外,据 Nature 报道,Labb é 和 Cabanac 还发现了 20 篇由 MATHgen(生成数学论文的软件)和 SBIR 提案生成器(创建无意义研究提案的软件)生成的论文。

他们已经公布了详细的调查结果,详见 https://dbrech.irit.fr/pls/apex/f?p=9999:1

同行评审没有发现 SCIgen 生成的这些论文

在最近一批使用 SCIgen 自动生成论文调查中,中国作者占 64%,印度则为 22%。但 Labb é 指出,在提交论文中,作者署名可能不使用真实的名字,但难以查究。

文章截图

但是有论文作者告诉 Labb é 和 Cabanac,他之所以会提交 SCIgen 生成的论文,纯粹是「恶作剧」。但是,除了「恶作剧」的之外,有些论文作者似乎在参考文献上进行了认真的编辑。可以推测,这种做法很有可能是为了增加论文引用量,从而提高简历含金量。

他们发现,目前只有两篇被曝光的 SCIgen 论文没有被 IEEE 撤稿(正在评估阶段),以及一篇包含 MATHgen 生成内容的论文没有被 Springer 论文撤回。

但是,一些出版商面临很糟糕的情况,英国物理学会电子期刊数据库旗下的子公司 IOP Publishing 谈到,有明确证据证明论文是由计算机生成的,他们撤回了 10 篇论文,但同时也在调查为什么在同行评审阶段没有发现这些计算机生成的论文。

IOP 的经理 Kim Eggleton 表示:「我们有合理的证据表明,这些论文的同行评审在审核论文方面还不合格。」

出版 SCIgen 论文最多的出版商是一家瑞士出版商 Trans Tech Publications,他们出版了 57 篇 SCIgen 论文;其次是印度的 Blue Eyes Intelligence Engineering and Sciences ( BEIESP ) 出版商,出版了 54 篇 SCIgen 论文;此外,还有来自法国的出版商 Atlantis Press(今年 3 月被 Springer Nature 收购),出版了 39 篇 SCIgen 论文。Trans Tech Publications 和 Atlantis 告诉《Nature 》,他们正在调查,并会撤回相关论文。而 BEIESP 的发言人表示,他们只出版经过双盲同行评审与剽窃检查的原创内容。

研究还发现,SSRN 已经发表了 16 篇 SCIgen 文章。该平台是一款预印服务器,文章在分享之前没有经过同行评审。SSRN 的一位发言人说,该公司正在调查 SCIgen 文章问题,并指出该公司为其预印本提供了「有限的筛选」(对医疗 – 健康论文进行了「高级筛选」。)

Cabanac 对一些出版商处理这类论文的不透明方式感到担忧。例如,IEEE 撤回了 SCIgen 论文,但没有正式的撤回通知。此外,Cabanac 还指出,一些研究论文或者早期的论文版本会从预印服务器 SSRN 消失,但论文的变动却没有记录。

IEEE 发言人表示,其删除论文或撤稿通知取决于评估结果;而 SSRN 没有回应有关其撤稿或删除论文政策的问题。

SCIgen 论文相对较少, Labb é 和 Cabanac 估计,数据表明,在计算机科学文献中,每 100 万篇论文中只有 75 篇是 SCIgen 生成的。与「论文制造工厂」相比,它们为学者们撰写了看似真实的研究论文,SCIgen 论文问题还不算严重。

参考链接:

https://zh.wikipedia.org/wiki/SCIgen

https://www.shobserver.com/toutiao/html/147296.html

https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495

CVPR 2021 线下论文分享会

6 月 12 日,北京望京凯悦酒店。CVPR 2021 线下论文分享会将设置Keynote论文分享Poster环节。

4 个 Keynote、12 篇论文分享日程已确认,欢迎大家报名学习。

作为一场开放的学术交流活动,我们也欢迎 CVPR 2021 的论文作者们作为嘉宾参与(现只剩 Poster 席位),请在报名页面提交演讲主题、论文介绍等信息,我们将与你联系沟通相关事宜。

点击阅读原文,立即报名。

©  THE END  

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文来自网络,不代表野草社区立场,转载请注明出处。