细胞图像数据的主动学习( 四 )


plt.legend(loc='lower right')
plt.savefig(\"models robustness vs dummy.png\" bbox_inches='tight')
plt.show()

策略之间的差异还是很大的 , 可以看到主动学习只使用25个样本就可以达到平均精度0.9得分! 而使用随机的策略则需要175个样本才能达到相同的精度!
此外主动学习策略的模型的分数接近0.99 , 而随机模型的分数在0.95左右停止了! 如果我们使用所有数据 , 那么它们最终分数是相同的 , 但是我们的研究目的是在少量标注数据的前提下训练 , 所以只使用了数据集中的300个随机样本 。
总结本文展示了将主动学习用于细胞成像任务的好处 。 主动学习是机器学习中的一组方法 , 可根据其标签对模型性能的影响来优先考虑未标记的数据示例的解决方案 。 由于标记数据是一项涉及许多资源(金钱和时间)的任务 , 因此判断那些标记那些样本可以最大程度地提高模型的性能是非常必要的 。
细胞成像为生物学 , 医学和药理学领域做出了巨大贡献 。 以前分析细胞图像需要有价值的专业人力资本 , 但是像主动学习这种技术的出现为医学领域这种需要大量人力标注数据集的领域提供了一个非常好的解决方案 。 s
本文引用:

  • GitHub — Shenggan/BCCD_Dataset: BCCD (Blood Cell Count and Detection) Dataset is a small-scale dataset for blood cells detection.
  • Blood Cell Images | Kaggle
  • Active Learning in Machine Learning | by Ana Solaguren-Beascoa PhD | Towards Data Science
  • Carpenter A. E. Jones T. R. Lamprecht M. R. Clarke C. Kang I. H. Friman O. … & Sabatini D. M. (2006).
  • CellProfiler: image analysis software for identifying and quantifying cell phenotypes. Genome biology 7(10) 1–11.
  • Stirling D. R. Swain-Bowden M. J. Lucas A. M. Carpenter A. E. Cimini B. A. & Goodman A. (2021).
https://avoid.overfit.cn/post/e920ecde825b4136ae57fbcd325b9097
作者:Adi Nissim Noam Siegel Nimrod Berman

推荐阅读