吴恩达发布了大型X光数据集,斯坦福AI诊断部分超越人类( 二 )

数据集是怎样炼成的

这22万张胸片,都是2002年10月到2017年7月之间,斯坦福医院做过的X光检查,来自65,240个就诊的人类。

有哪些标签

每张胸片有14个标签要贴,其中12个,是表明患者是否存在心脏肥大(Cardiomegaly) 、肺部病变 (Lung Lesion) 等12种疾病特征。

吴恩达发布了大型X光数据集,斯坦福AI诊断部分超越人类

图3/5

另外两个标签,一个是无发现 (No Finding) ,另一个是辅助器具 (Support Devices) 。

14个标签,都分为阴(Negative) 、阳(Positive) 以及不确定(Uncertain) 这三种选项。

因为,并不是所有问题,都能从胸片上得到确定的答案。如果不能做出明确的判断,就不可以贸然输出阴或阳。

自动标注工具

有了14个标签要贴,吴恩达团队开发了一种自动贴标签的算法:从医师每张胸片做的报告文本里,找到和每个标签相对应的信息。

推荐阅读