【Nature重磅】SCI论文图像查重软件研发成功。造假图片,无处可藏

Hanson临床科研

作者| Hanson 来源|Hanson临床科研(ID:HClinicalResearch)

Nature杂志新闻版于2020年7月21日发表一篇重磅消息:论文图片查重软件研发成功,在对3500篇预印版论文进行的检测中,找出24张涉嫌重复/造假的图像。这对于论文造假无疑是一记重锤。

一,

疯狂的论文造假

由于存在巨大的利益,论文造假一直屡见不鲜,甚至在部分国家或地区形成了造假论文产业链。有造假、就有打假;但与庞大的造假数量相比,靠几个志愿者打假,显然是杯水车薪。

比克博士再揭121篇涉嫌造假论文,113发表在同一杂志;还在等之前400余篇处理结果

SCI论文造假新高度:8篇一样。

二,

中国是重灾区之一

美国Healsan Consulting LLC对全球撤稿数据库的分析显示,

1,中国SCI论文撤稿占到所有撤稿的44.0%。截止到2020年6月22日,世界范围内共有23,425篇SCI撤稿,其中中国有10,303篇,远远高于第二位的美国4,125篇。中国论文撤稿占44%。

1

(图1. Credit:Healsanconsulting LLC, USA)

2,剽窃仍然是中国SCI论文撤稿的首要原因。近三年中国SCI论文共有1397篇SCI论文撤稿,其中因为剽窃所致的撤稿有547篇(39%),另外错误所致的撤稿有330篇(24%)。

1

(图2. Credit:Healsanconsulting LLC, USA)

中国SCI论文撤稿占44%,2012年起撤稿数量持续上涨

三,

图片查重软件应运而生

上面数据中提到的占撤稿原因39%的“抄袭”,主要是指文字抄袭。因为目前的查重系统只能查文字,不能查图片。而撤稿第二常见原因“错误”部分,则主要是图片“错误”。在目前靠人工检查的情况下,就已经发现了大量伪造的图片,可知实际情况多么严重。所以当论文图像查重软件的研发者,美国纽约Syracuse大学的机器学习研究人员Daniel Acuna,递交了其第一批图片查重结果时,立即引起学术界的关注。

识别原理其基本原理是,将提取图片放大以获得特征性图片数字“指纹”,从而即使图片做了旋转、大小调整、截取、改变对比度或颜色,该软件仍然能够识别出其相似度。根据Acuna研究团队之前的检测结果,他们推测数据库中1.5%论文包含有可疑的图像,而0.6%论文包含有欺诈性图像。

小时牛刀这款软件从2015年开始研发,历经5年反复测试、并经过小范围试用终获成功。首次正式应用于新冠病毒病(COVID-19)领域预印版论文的识别。因为这个领域论文的爆发程度不亚于病毒传播,低质量、甚至造假论文也屡见不鲜。Acuna研究团队从bioRxiv和medRxiv服务器上下载了3500篇论文,总共有21,000张图片。在4个小时内,该软件就找到约400张可能重复的图像。经过人工鉴定后,Acuna团队认为,其中的24张包含有重复图片,并在7月份将之公布在其网站上。

优势和不足Acuna团队的检测结果立即引起轰动。因为是通过软件自动检测,可以大规模发现重复的图像;另外可以发现人工不能识别的图像。收到email通知后一些论文作者立即回应,承认该软件找到的是重复图片,并表示将纠正错误。芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri更是建议在PubMed数据库中应用该软件。著名学术打假人伊丽莎白·比克(Elisabeth Bik)在赞许之余,也建议在正式公布软件识别的造假图片之前,由她做鉴定。因为该软件识别出的“嫌疑图片”仍然需要人工确认。但也有一些收到通知的学者说,Acuna的软件搞错了,标记出来并不匹配的图像。美国北卡罗来纳州的学者则要求Acuna删除其网站公示,因为Acuna软件对其论文图片做了错误识别。

进一步处理方法基于上述反馈,Acuna已经将其识别出来的“造假图片”由网站公示改为私下访问。只有从他的email通知的学者,才能凭借给予的密码进行访问和回复。所以设置的“嫌疑造假图片”处理流程也变为:先通知作者,如果作者不回复则将公开。在初尝战果后,Acuna也计划扩大软件筛查范围。Acuna特别告诫说:“我希望作者意识到,有人正在对所有的论文图片进行识别。”

资料来源:https://www.nature.com/

本期编辑:Henry,图片来自于网络,版权归原作者所有。

编者按:本文转载自微信公众号:Hanson临床科研(ID:HClinicalResearch)

可行性研究报告
Hanson临床科研

本文作者信息

Hanson临床科研(医疗自媒体)

关注(5798)赞(2)

邀请演讲

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐