首页 文章详情

每预测一次文本,增加一个bug:软件为何给科学论文“添堵”?

大数据文摘 | 144 2021-09-22 21:02 0 0 0
UniSMS (合一短信)
大数据文摘授权转载自数据实战派
作者:Ren

自动更正和预测文本输入是如今许多技术工具的标配功能,广泛应用于搜索引擎,即时沟通软件,输入法,以及 Word、Excel 等文字和数据处理工具中。

在大多数情况下,自动更正是值得信赖的,比如帮助我们在速记时迅速纠正英文单词的拼写。但当它出错时,就会以戏剧性的方式改变信息——无论是编的段子,还是真实事件,几乎每隔一段时间就能看到输入法自动纠正闹出的笑话。

如果这些错误出现在日常沟通中,是容易识别和改正的,但如果它们出现在以严谨著称的科研界,则很容易藏身于体量庞大的数据中,不仅难以发现和纠正,还可能导致研究成果出现重大问题。

最近,澳大利亚贝克 IDI 心脏与糖尿病研究所的一项最新研究显示,自动更正导致的错误——尤其是 Excel 电子表格中的默认设置问题——使许多基因研究中的基因名称变得一团糟。

一个典型的例子是 MARCH1 基因。由于 March 是英文单词“三月”,因此Excel 会把 MARCH1 识别成 3 月 1 日并进行格式转换,比如改成 1-Mar,令人哭笑不得。

图 | 输入基因名称,被 Excel 误认为是日期(来源:TheVerge)

该研究由研究员 Mark Ziemann 及其同事完成,以论文的形式发表于 PLOS Computational Biology 上。他们分析了 2014 至 2020 年间发表的 10,000 多篇附上了 Excel 基因列表的论文,发现超过 30% 的论文至少包含一个被自动更正过的基因名称。

事实上,早在 2004 年,就有科研人员注意到了基因名称被“自动更错”的问题,但一直未被广泛重视。而这项最新研究也是 Mark Ziemann在 2016 年的研究的延申,当时大约有 20% 的论文出现了自动更正错误。五年过去了,情况非但没有好转,反而变得更糟了。

“我们的研究表明,由自动更正导致的基因名称错误正迅速出现在补充数据所用的 Excel 文档中。为了避免 Excel 出现更多类似问题并引发其他可重复性问题,我们认为基因组科学家分析和共享数据的方式需要进行重大改变,” 研究人员表示。

Excel 的“自动更错”


自动更正和输入文本预测是 Excel 的默认开启功能,在两者的共同作用下,Excel 可以预测用户输入的数据是什么类型,然后再按照它的预测转换数据类型和表达形式。

如果 Excel 认为你输入的是数字或电话号码,那它就会删除开头的0:“00001234”会变成“1234”,“0000”则会变成“0”。在此基础上还有更复杂的逻辑,如果你输入“=8/2”,结果就是“4”,但如果你输入“8/2”,结果就是日期“8月2日”。

然而对于科研数据而言,使用默认设置在 Excel 中打开文件可能会损坏数据,自动更正反而变成了“自动更错”。

一个有效的解决办法是在粘贴或导入数据之前预先设置好单元格的格式,这可以避免不必要的自动更正。但该方法并未得到广泛实践,实际操作也没有听起来这么简单。

在遗传学领域,科学家们早在 2004 年就认识到大约 30 个人类基因和蛋白质名称可能会被 Excel 转换为日期。这些名称包括 MARCH1、SEPT1、Oct-4、jun 等等。谷歌表格,另一个常被用来分享数据的在线工具,也会出现类似的问题。

图 | 特定的基因名称会被 Excel 识别成日期(来源:theconversation)

“它会对你的研究产生重大影响,”澳大利亚悉尼大学的分子生物学家 Auriol Purdie 表示。Purdie 已经使用基因微阵列和基因转录数据集工作了 20 年,对此类错误十分熟悉,但她依旧认为这是令人头疼的问题,尤其是对初入基因研究的学者来说。

基因研究要用到基因网络分析软件,它们支持导入 Excel 数据,可一旦 Excel 自动更正了某些基因名称,软件就会报错,显示基因数据丢失,但不会告诉使用者具体是哪些基因数据出现了问题。

面对数以万计的庞大基因数据集,依靠人力来查找并改正问题是十分繁琐的,需要消耗不少的精力和时间。

令人头疼的问题仍在持续


在 2016 年的研究中,Mark Ziemann 及其同事以高影响力期刊论文为对象,他们在大约 20% 的论文补充数据文件中发现了这个问题。这意味着学者和期刊在很大程度上不清楚自动更正会导致错误,更不知道如何避免和解决它。

根据这份2016年的研究,负责命名人类基因的国际人类基因组组织(HGNC)在 2020 年重新命名了数十个最容易出问题的基因,比如将 MARCH1 和 SEPT1 分别改为 MARCHF1 和 SEPTIN1,力求从根本上杜绝这一问题的出现。

值得一提的是,这并非首次有基因被改名。

在早期基因研究中,基因的命名并没有严格规范,因此许多人在起名方面别出心裁,于是就诞生了大名鼎鼎的 POKEMON (宝可梦)基因。它跟宝可梦一点关系都没有,只不过是几个单词的开头首字母恰好组成了 POKEMON,但这招来了美国任天堂的官司警告,因此在诞生几个月之后就被迫改名 Zbtb7。

今年早些时候,Mark Ziemann 又进行了一次分析,将范围扩展到了开放获取期刊,时间跨度是 2014 至 2020 年。他们预计研究人员和期刊会采取措施防止此类错误出现在其补充数据文件中。

然而令他们震惊的是,在超过 1.1 万份论文中,有 3,436 篇论文的补充数据出现了基因名称错误问题,约占总数的 31%。出问题的论文数量自 2017 年以来还呈现出逐年上升的趋势。

这意味着问题不仅没有消失,反而还越来越多。

图 | Excel 导致的基因名称问题仍在增加(来源:见图)

有些人认为这些错误并不重要,因为只有大约 30 个基因名称会出现这一问题,只占整个人类基因组中大约 44,000 个基因的一小部分,而且这些错误不太可能推翻任何特定基因组研究的结论。

但这对实验结果的可重复性提出了挑战,任何尝试重复使用这些补充数据的人都会发现其中一小部分基因数据丢失或损坏。

“我们认为这些错误不容忽视,”研究人员强调,“因为它们暗示了另一个更严重的问题,那就是这些错误一开始是如何进入出版物的?如果基因名称自动更正错误可以通过同行评审而未被发现,那么在其他上千个数据点中,是否可能隐藏着其他错误?”

是时候换掉 Excel 了?


在商业和金融领域,有很多例子表明电子表格错误导致代价高昂且令人尴尬的损失。

Excel 导致的错误不仅出现在科研领域,在商业和金融领域,类似的问题同样导致了许多代价高昂且令人尴尬的损失。

2012 年,摩根大通工作人员在用 Excel 建模时忽视了公式错误,导致了一系列交易失误,各项损失超过 60 亿美元。

2013 年,哈佛大学经济学家卡门·莱因哈特(Carmen Reinhart)和肯尼思·罗格夫(Kenneth Rogoff)的一篇讨论全球金融危机应对方法的著名论文《负债时代的经济增长》(Growth in a Time of Debt)被发现包含一系列错误,其中一个就是由 Excel 计算平均数公式出错导致的,原本想要计算的 20 个国家被忽略了 5 个。错误被更正后,论文的核心观点“高债务和低经济增长之间的相关性”被大幅削弱。

就在刚刚过去的 2020 年,英格兰公共卫生部的 Excel 错误导致大约 15,000 例新冠阳性病例对应的数据丢失。这直接影响了八天的密切接触者追踪工作。

研究人员认为,虽然 Excel 功能强大且用途广泛,但其局限性也十分明显,科学家(特别是遗传学科学家)应当寻找新的数据工具,尤其是在科研工作所需数据量正与日俱增的情况下。

“很显然,微软在创造 Excel 时并未考虑到基因研究,未来也不会考虑,毕竟这只是很小的应用案例,”研究人员表示,“因此在数据密集型科研领域,Python 和 R 等计算机语言明显优于 Excel。它们有更强大的分析功能、可重复性、可审计性,还能更好地管理代码版本和不同人的贡献。它们最初可能更难上手,但从长远来看,它们会带来更多的好处。

References:

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008984

https://www.nature.com/articles/d41586-021-02211-4

https://theconversation.com/excel-autocorrect-errors-still-plague-genetic-research-raising-concerns-over-scientific-rigour-166554



点「在看」的人都变好看了哦!
good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter