图灵奖得主 LeCun 用来怼 Google 的乳腺癌 AI 论文,有何过人之处?(15)

在下面的实验中 , 我们在几个不同群体上评估我们的模型 , 以测试不同的假设:

(i)筛查人群 , 包括来自测试集的所有检查 , 不进行亚抽样

(ii)活检亚群 , 这是筛查人群的子集 , 仅包括接受活检的乳腺筛查人群的检查

(iii)阅片研究亚群 , 包括活检亚群和未发现任何病灶的筛查人群随机抽样的子集

B. 评价指标

我们主要根据AUC(ROC曲线下的面积)评估我们的模型对乳腺恶性/非恶性和良性/非良性分类任务的性能 。 阅片研究模型和阅片者对图像的分类成绩是根据AUC和PRAUC来评估的 , 这两个是评估放射科医生成绩的常用指标 , ROC和PRAUC代表预测模型不同方面的性能 。

C. 筛查人群

本节为筛选人群的结果 , 不同模型的结果如表3所示 。 总体而言 , 四个模型的AUC都较高且基本持平 。 ‘view-wise’image-and-heatmaps集成模型在结构上与预训练阶段使用的BI-RADS模型最为相似 , 在预测恶性/非恶性方面表现最佳 , 在筛查人群的AUC为0.895 , 活检人群的AUC为0.850 。

推荐阅读