图灵奖得主 LeCun 用来怼 Google 的乳腺癌 AI 论文,有何过人之处?(16)

然而在良性/非良性预测方面 , 其他一些模型确实优于‘view-wise’集成模型 。 仅有图像输入的四种模型表现大致相当 , 低于image-and-heatmaps模型 。 在恶性/非恶性分类中 , image-and-heatmaps模型比良性/非良性分类有更强的改进 。

我们还发现 , ensembling在所有模型中都是有益的 , 这使得AUC的小而稳定的提升 。

image-and-heatmaps模型的四个变体模型集成后 , 在筛查人群中对良性/非良性预测任务的AUC为0.778 , 恶性/非恶性预测的AUC为0.899 。 尽管这种性能优于任何单独的模型 , 但在实践中运行这样一个由20个独立模型组成的大型集成体将非常昂贵 。

D. 活检亚群

我们在表3的右半部分显示了模型在活检人群中的评估结果 。 我们的测试集有401个乳腺 , 其中339个有良性发现 , 45个有恶性发现 , 17个两者均有 。 活检亚群与总体筛查人群不同 , 总体筛查人群主要是健康个体 , 他们每年都要进行常规筛查 , 而没有其他的影像学或活检 。 与筛查人群的结果相比 , 所有模型在活检人群的AUC明显较低 。

推荐阅读