文字|卜金庭田瑞英《自然》 最近的一篇文章警告说,人工智能(AI)使用不当可能会导致大量不可靠或无用的研究,从而导致可重复性危机。目前尚不清楚基于人工智能的科学文献中的错误是否在实际临床实践中造成了真正的危险。 2020年底COVID-19大流行期间,由于一些国家病毒感染检测试剂短缺,利用胸部X光检查的诊断方法备受关注,但人眼很难准确区分差异感染者和非感染者之间。一个印度团队报告称,人工智能可以使用机器学习来分析X 射线图像。该论文已被引用900余次。次年9月,美国堪萨斯州立大学计算机科学家Sanchari Dhar和Lior Shamir进行了更深入的研究。他们使用与印度团队相同的图像数据集来训练机器学习算法,但只分析了没有显示任何身体部位的空白背景部分。结果表明,人工智能仍然能够以远远高于偶然性的水平识别感染病例。这意味着人工智能系统可以使用这些图像数据成功完成诊断任务,但它无法学习任何临床相关特征——,这可能使其在医学上毫无用处。沙米尔和达尔还发现了其他几个案例,人工智能从图像的空洞或无意义部分得到了类似的结果,其中一些被引用了数百次。这也让沙米尔感到担忧:“这些例子很有趣,但在生物医学领域它们可能是致命的。”
AI“玩弄”数据和参数2021 年的一项研究回顾了62 项研究,这些研究使用机器学习通过胸部X 光或计算机断层扫描诊断COVID-19 感染,得出的结论是,没有因方法缺陷或计算机断层扫描而导致COVID-19 感染的病例。图像数据集中的偏差。人工智能模型在临床上很有用。沙米尔说:“人工智能允许研究人员‘玩弄’数据和参数,直到结果与预期一致。”机器学习算法使用数据集进行训练,直到产生正确的输出,然后研究人员根据训练数据集评估其性能。尽管专家强调需要将训练集和测试集分开,但一些研究人员显然没有意识到这一点。这之间的关系非常微妙:如果在训练数据集中取一个随机子集作为测试数据,很可能会导致数据泄漏;如果数据集来自同一患者或同一科学仪器,AI可能会学会识别患者或仪器。相关特征而不是解决特定的医疗问题。普林斯顿大学计算机科学家Sayash Kapoor 和Arvind Narayanan 在今年的一份报告中也指出,这一数据泄露问题导致他们研究的17 个领域出现了重现性问题,影响了数百篇论文。修正测试数据集也会引起问题。如果数据不平衡,研究人员可以采用重新平衡算法,例如合成少数过采样技术(SMOTE),该技术可以合成欠采样区域的数据。事实上,SMOTE 并不是平衡数据集,而是创建一个与原始数据具有相同固有偏差的数据集。即使是专家也很难避免这些问题。 2022 年,法国数字科学技术研究所的数据科学家Gal Varoquaux 及其同事在巴黎发起了一项挑战,要求团队开发一种算法,能够利用从磁共振成像获得的大脑结构数据来预测自闭症谱系障碍。准确诊断。本次挑战赛共收到来自61支队伍的589种算法。 10 个表现最好的算法主要使用机器学习。然而,这些算法并不能很好地推广到另一个数据集,该数据集与提供给参与团队用于训练和测试其模型的公共数据是保密的。 Varoquaux 认为,本质上,由于算法是在小数据集上开发和测试的,即使试图避免数据泄漏,它们最终也会与数据中的特定模式保持一致,从而使该方法不那么通用。
解决这个问题
8 月,Kapoor、Narayanan 及其同事提出了一种解决该问题的方法,即开发基于人工智能的科学报告标准列表,其中包括与数据质量、建模细节和数据泄露风险相关的32 个问题。他们表示,该列表为基于机器学习的研究提供了跨学科基准。许多人认为,使用人工智能的研究论文应该充分公开方法和数据。分析公司Booz Allen Hamilton 的数据科学家Edward Raff 2019 年的一项研究发现,255 篇使用AI 的论文中只有63.5% 可以被复制,但加拿大蒙特利尔麦吉尔大学的计算机科学家Joelle Pineau 等人表示,如果原作者主动提供数据和代码,重复率将高达85%。基于此,Pineau 及其同事提出了一种基于人工智能的论文协议,规定提交的内容必须包含源代码,并根据机器学习再现性检查表进行评估。但研究人员指出,在计算科学中实现完全可重复性很困难,更不用说在人工智能中了。事实上,可重复性并不能保证人工智能能够提供正确的结果,只是提供自洽的结果。荷兰埃因霍温理工大学计算机科学家Joaquin Vanschoren 警告说:“很多高影响力的人工智能都是由大公司创建的,他们很少立即公开代码。有时他们不愿意公开代码因为他们认为还没有准备好,“如果没有足够的数据集,研究人员就无法正确评估模型,最终会发布表现良好的低质量结果,”非营利性可重复研究协会主任约瑟夫·科恩强调说。这个问题在医学研究中非常严重,因为它可以从训练数据集中生成新数据,例如,研究人员可以使用这些算法来提高图像的分辨率,除非非常小心,否则可能会引入伪影。谷歌科学家Viren Jain 表示,虽然他致力于开发用于可视化和操作数据集的人工智能,但他也担心研究人员滥用生成人工智能。此外,一些研究人员认为,为了真正解决问题,必须改变有关数据呈现和报告的文化规范。加拿大多伦多大学计算机科学家本杰明·海贝-凯恩斯(Benjamin Haibe-Kains) 对此并不乐观。 2020年,他和同事批评了一项机器学习检测乳腺癌的研究:“由于缺乏支持该研究的计算代码,该研究没有科学价值。”对此,研究作者表示,由于部分数据来自医院,他们存在隐私问题,无权共享所有信息。 Haibe-Kains 还指出,作者并不总是遵守数据透明度准则,期刊编辑通常不会在这方面强烈反对。他认为,问题并不是编辑们放弃了透明原则,而是编辑和审稿人可能对拒绝共享数据、代码等的真正原因没有足够的了解,因此常常以不合理的理由妥协。事实上,作者可能不明白需要什么来确保其工作的可靠性和可重复性。 《自然》杂志今年进行的一项调查询问了1600 多名研究人员,询问人工智能论文的同行评审是否充分。对于从事人工智能研究的科学家来说,四分之一的人认为审查是充分的,四分之一的人认为还不够,大约一半的人表示他们不知道。
“我们应该努力适应新工具” 并非所有人都认为人工智能危机即将来临。 “我没有看到人工智能带来的不可重复结果有所增加。事实上,如果谨慎使用,人工智能可以帮助消除研究人员工作中的认知偏差。”神经科学家Lucas Stetzik 说。尽管人们普遍担心许多已发表的人工智能研究结果的有效性或可靠性,但尚不清楚这些结果是否会导致临床实践中的误诊。 “如果发生这种事,我不会感到震惊,”芝加哥德保罗大学的凯西·贝内特说。在科恩看来,这个问题可能会自行解决,就像其他新科学方法的早期一样:“发表劣质论文的作者将来将不再有工作机会,接受这些文章的期刊将被认为是不值得信任的。” ,优秀的不会被认为是可信的。”作者也不会愿意在这些期刊上发表文章。”贝内特认为,十几年后,研究人员将对人工智能能提供什么以及如何使用它有更深入的了解,就像生物学家花了很长时间才能更好地理解人工智能如何使用它一样。将基因分析与复杂疾病联系起来。“人们越来越接近基本模型,例如OpenAI 的GPT-3 和GPT-4。这比内部训练的定制模型更有可能产生可重复的结果。”谷歌科学家Viren Jain 认为,对于AI 生成来说,当使用的模型相似时,可重复性可能会提高。
相关信息:
https://www.nature.com/articles/d41586-023-03817-6