?
 
作者:晋楠 来源:科学网微信公众号 发布时间:2021/6/4 20:58:29
选择字号:
骗过同行评审!200多篇软件生成的“垃圾”论文竟成功发表

 

编译 | 晋楠

用计算机软件“炮制”论文、骗过同行评审,最终还能浑水摸鱼成功发表?近日发表于《自然》的一篇文章显示,法国科学家通过检测数百万篇论文,发现了243篇这样的“垃圾”文章。

研究还发现,这些软件制造出的论文大多数由来自中国(64%)或印度(22%)的研究人员撰写,尽管研究者表示,其中一些论文可能是在作者不知情的情况下以他们的名义提交的。

一些涉事出版商已经表示将撤下这些论文,但让更多人质疑的是,一些期刊的同行评审难道是“吃素”的?为何会让如此多计算机生成的论文成为漏网之鱼?

“垃圾”文章如何生成?

早在2005年,出于“玩心”,美国麻省理工学院3位计算机博士生Jeremy Stribling、Daniel Aguayo 和 Maxwell Krohn,创造了一款叫作SCIgen的论文生成软件,以了解一些会议是否会接收毫无意义的“垃圾”论文。

SCIgen能把单词拼凑在一起,生成带有随机标题、文本和图表的研究文章。它们很容易被人类读者发现是胡言乱语。

结果,出于“恶作剧”让计算机写的一篇文章Rooter: A Methodology for the Typical Unification of Access Points and Redundancy,竟然被当年7月在佛罗里达举行的第9届世界系统、控制论和信息学多学科大会(WMSCI)接收了。

事情到此并未结束。

由于SCIgen软件可免费下载,任何人都可以使用,类似的“恶作剧”还在继续,并逐渐发展为一种论文造假的手段,让科学文献中涌现出一批“垃圾”文章。

到2012年,法国计算机科学家Cyril Labbe发现,美国电气和电子工程师协会(IEEE)出版的会议论文中有85篇出自SCIgen的伪造论文。他还找到了120多篇被IEEE和施普林格(现为施普林格·自然的一部分)发表的假SCIgen论文。

Labbe表示,目前还不清楚这些论文是谁撰写的,以及为什么这样做。随后其中一些文章被撤销,有的则被删除。

如何防范这些计算机“发明”的论文呢?

为此,Labbe注册了一个网站,可以让任何人上传手稿,检查它是否为SCIgen编程的“发明”。

Labbe发起的网站

施普林格也赞助了一个帮助发现SCIgen论文的博士项目,产生了一个叫作SciDetect的免费“侦查”软件。

SciDetect的免费“侦查”软件

为了简历“好看”发“垃圾”文章?

最初,Labbe需要在论文手稿中搜索SCIgen的典型词汇。后来他和法国图卢兹大学计算机科学家Guillaume Cabanac提出了一个新想法:寻找SCIgen输出短语的关键语法特征。2020年5月,他们在Dimensions数据库收录的数百万篇论文中搜索了这些短语。

在近日发表于ASIS&T的一项研究中,他们表示,在对每篇文章进行人工检查后,发现了243篇完全或部分由SCIgen撰写的“垃圾”文章。

截至2020年5月20日,作者检测到的243篇含有SCIgen文本的文档的年份分布情况,以及每年文档类型的份额。图源:Labbe等

每年由出版商生成的包含SCIgen文本的论文数量。2020年不完整,因为数据截止日期为2020年5月20日。图片来源:Labbe等

这些论文发表于2008~2020年,出现在各种期刊、会议论文集和预印本上,大多数属于计算机科学领域。还有一些论文则出现在开放获取的期刊上,甚至是付费阅读期刊上。其中,46篇已从最初发布的网站上被撤销或删除。

从图中可以看到,IEEE、ACM(国际计算机协会)、IAES(航空航天与电子系统)、美国科学出版社等期刊、会议或机构都曾发表过相关论文。(图中“C”表示封闭获取,“O”表示开放获取。)图片来源:Labbe等

自去年以来,Labbe的清单上又增加了20篇论文,其中包括用MATHgen(生成数学论文的软件)和SBIR提案生成器(生成无意义的拨款提案)编写的乱七八糟的文章。

Labbe指出,最新一批的SCIgen论文大多数由来自中国(64%)或印度(22%)的研究人员撰写,尽管这些手稿可能是在他们不知情的情况下被他人以其名义提交的。

图片来源:Labbe等

其中几篇论文的作者告诉Labbe和Cabanac,他们是作为“恶作剧”提交的。但其他论文似乎是用真实的参考书目列表进行编辑,这表明它们的出现可能是为了夸大科学家的引文数量。

“我认为,这些论文绝大多数都是为了充实简历,以满足发表论文的需要。”Labbe说。

同行评审是“吃素”的?

在最新一批论文中,除了IEEE等知名会议或机构出现问题,还出现了若干计算机生成论文的“重灾区”。发布SCIgen内容排名前三位的分别是:

瑞士的跨技术出版社(Trans Tech Publications),共发表了57篇相关论文;

印度的蓝眼睛智能工程与科学出版社(Blue Eyes Intelligence Engineering and Sciences Publication,BEIESP),发表了54篇;

今年3月被施普林格·自然收购的法国出版社亚特兰蒂斯(Atlantis),发表了39篇。

上述瑞士和法国出版社表示,他们正在调查并撤回这些文章。不过,BEIESP的一位发言人表示,他们发表的文章都是通过双盲同行评审和剽窃检查的原创内容。

被科学界奉为圭臬的同行评审难道是“吃素”的?为何对这类计算机炮制的论文防不胜防?

对于这一问题,以WMSCI为例,Stribling认为,这是因为这类会议比较“水”,没有科学功能,只会通过发邮件等各种方式推销自己而获利。

此次,英国伦敦物理研究所附属机构IOP出版社也撤回了 10 篇论文,并在调查为什么在同行评审阶段没有发现这些计算机生成的论文。

该出版社诚信和内容经理Kim Eggleton表示,“我们有合理的证据表明,这些论文的同行评审过程不合格。”

你能想象自己看过的某篇论文其实是计算机软件生成的“垃圾”论文吗?它们之所以能被最终发表,是因为这些会议或期刊比较“水”,还是因为同行评议容易被操纵?

你有什么看法?欢迎讨论。

参考文献:

https://www.nature.com/articles/d41586-021-01436-7https://www.nature.com/articles/nature03653

http://scigendetection.imag.fr/main.php

https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495

https://link.springer.com/article/10.1007/s11192-012-0781-y

 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给:      
 
相关新闻 相关论文
?
图片新闻
微环境预测肿瘤治疗反应 高精度基因组揭开孑遗物种银杏面纱
复合气凝胶:电磁波捕捉能手 原始人如何照亮黑暗
>>更多
 
一周新闻排行
 
编辑部推荐博文