图灵奖得主 LeCun 用来怼 Google 的乳腺癌 AI 论文,有何过人之处?(17)

在活检亚群中 , 我们观察到image-only模型与image-and-heatmaps 模型之间的一致性差异 。 image-and-heatmaps集成模型在恶性/非恶性分类上表现最好 , AUC达到0.850 , 在良性/非良性分类上表现同样最好 , AUC达到0.696 。 与筛查人群相比 , 活检亚群获得的AUC明显较低 , 这可以解释为 , 需要进一步影像学检查和活检的乳腺图像对于放射科医生和我们的模型均具有挑战性 。

E. BI-RADS预训练的重要性

我们通过将我们的模型与未使用BI-RADS预训练模型的权重而训练的癌症分类模型的性能相比较 , 来评价BI-RADS预训练的益处 , 结果见表三(用*标记) 。

【表三】

阅片研究

为了将我们的image-and-heatmaps集成模型(以下简称模型)的性能与放射科医生进行比较 , 我们对14名医师进行了一项阅片研究 , 其中有12名具有不同经验水平的放射科医生(2至25年) , 一名住院医生和一名医科学生 , 分别从测试集(1480个乳腺)中阅读740份检查:368份从活检亚群中随机选择的检查 , 372份从与活检不匹配的检查中随机选择的检查 。 医师被要求以0%-100%的比例为每个乳房提供恶性肿瘤的概率估计 。

推荐阅读