研究皮肤癌的图像数据库遭吐槽:肤色太白了!

Emma Chou

1

近日,根据一项新的研究,在一个公共皮肤图像数据集(用于训练算法以检测皮肤问题)中,没有包含足够多肤色的信息。在提供肤色信息的数据集中,只有极少数图像的肤色较深。因此使用这些数据集构建的算法,对于非白人来说可能不那么准确。

研究检查了21个可免费访问的皮肤状况图像数据集。结合起来,它们包括了超过100000张图像。这些图像中只有1400多张附加了有关患者种族的信息,只有2236张附加了有关肤色的信息。

利用这些数据训练算法很可能存在偏差:在具有肤色信息的图像中,只有11个属于“最暗肤色”类别。没有来自具有非洲、非洲裔加勒比或南亚背景的患者图像。

斯坦福大学皮肤病学临床学者表示,从少数报告肤色分布的论文中看到,这些论文确实显示出较深肤色的代表性不足。

当数据集中的图像公开可用时,研究人员可以查看相关肤色。但这可能也很困难,因为照片可能与现实生活中的肤色不完全匹配。最理想的情况是在临床访问时注意患者肤色,然后可以在该患者皮肤问题的图像进入数据库之前对其进行标记。

仔细检查这些图像集很重要,因为它们经常被用来构建算法来帮助医生诊断患有皮肤病的患者,其中一些皮肤病(如皮肤癌),如果不及早发现就会更加危险。

如果算法只在浅色皮肤上进行过训练或测试,那么它们对其他人来说就不会那么准确。研究也表明,仅对肤色较浅的人拍摄图像,进行训练的程序可能对肤色较深的人来说不那么准确,反之亦然。

研究人员希望看到更多深色皮肤状况的例子。提高数据集的透明度和清晰度,将帮助研究人员跟踪更多样化的图像集进展,有望出现更公平的人工智能工具。

题为Characteristics of publicly available skin cancer image datasets: a systematic review的相关研究论文发表在《柳叶刀-数字医疗》上。

前瞻经济学人APP资讯组

论文原文:

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(21)00252-1/fulltext

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐