成像|1.3亿突触、数万神经元，谷歌、哈佛发布史上最强三维人脑地图_哈佛|人类|组织|人脑|研究|大脑

机器之心报道
编辑：陈萍

包含 1.3 亿个突触、数万个神经元、1.4 PB 的人类脑组织小样本渲染图，谷歌和哈佛研究团队发布了一份迄今最大的「H01」人脑成像数据集。

2020 年 1 月，谷歌推出了果蝇的半脑连接体，这个在线数据库提供了果蝇半脑的形态结构和突触联系。这个数据库及其配套的可视化工具果蝇大脑中神经回路的研究和理解方式。虽然果蝇的大脑很小，可以使用现代映射技术获得相对完整的图谱，但获得的洞见对于理解神经科学中最有趣的对象——人类大脑还远远不够。

文章图片

这个新的「连接体」描绘了果蝇大脑中大约 25000 个神经元，这里显示了其中的一部分。
「H01」数据集：数万个神经元、1.3 亿个突触
基于此，谷歌联合哈佛大学 Lichtman 实验室于近日推出了「H01」数据集，这是一个 1.4 PB 的人类脑组织小样本渲染图。 H01 样本通过连续切片电子显微镜获得了 4nm 分辨率的图像，利用自动计算技术进行重建和注释，并进行分析以初步了解人类皮层的结构。该项目的主要目标是为研究人脑提供一种新的资源，并改进和扩展潜在的连接组学技术。

文章图片

?
「H01」数据集包含了大约 1 立方毫米脑组织的成像数据，包括数以万计的重建神经元、数百万个神经元片段、1.3 亿个带注释的突触、104 个校对过的细胞，以及许多额外的亚细胞注释和结构，所有这些都可以通过 Neuroglancer 浏览器界面轻松访问。
这是迄今为止人类编制的最全面、最详细的「人类大脑地图」，也是第一个大规模研究人类大脑皮层的突触连接的样本，该成果为研究人类大脑提供了重要资源。这一样本仍然只是整个人类大脑容量的百万分之一，未来的扩展研究仍然是一个巨大的技术挑战。

文章图片

数据集地址：
https://h01-release.storage.googleapis.com/landing.html

文章图片

左：数据的小子集；右：数据集中 5000 个神经元，以及兴奋性（绿色）和抑制性（红色）连接的子图。
大脑皮层是脊椎动物大脑的薄表层，在不同的哺乳动物中尺寸差异较大（尤其在人类中）。大脑皮层的每个部分都有六层，每层有不同种类的神经细胞。大脑皮层在高级认知功能（比如思考、记忆、计划、感知、语言和注意力）中起着至关重要的作用。人类虽然在这种复杂组织的宏观结构理解上已经取得了一些进展，但对于单个神经细胞及其相互连接的突触水平上的组织结构还不清楚。

文章图片

大脑侧视图。
【成像|1.3亿突触、数万神经元，谷歌、哈佛发布史上最强三维人脑地图】人类大脑连接学：从外科活检到 3D 数据库
以单个突触的分辨率绘制大脑结构图需要高分辨率显微镜技术，这种技术可以对生物化学稳定的组织进行成像。研究团队与脑外科医生合作，他们在进行治疗癫痫的手术时，有时会把正常人大脑皮层的一部分切掉，以便进入大脑深处癫痫发作的位置。被切掉的部分通常会被丢弃，而研究者得到了病人匿名捐赠的这个组织，以供 Lichtman 实验室的同事做研究。
哈佛大学的研究人员使用一台自动化磁带收集超微切片机，将组织切割成约 5300 个 30 纳米的切片，将这些切片放到硅片上，然后在一台定制的 61 束平行扫描电子显微镜中以 4nm 分辨率对脑组织进行成像，以便快速获取图像。
对约 5300 个物理切片进行成像产生 2.25 亿张单独的 2D 图像。研究团队将这些数据拼接（stitch）和对齐（align），生成一个单一的 3D 体积（volume）。虽然数据质量都很好，但这些对齐（alignment）pipeline 必须有力地处理许多挑战，包括成像伪影、切片缺失、显微镜参数的变化以及组织的物理拉伸和压缩。对齐之后，一个使用了数千谷歌云 TPU、多尺度的 flood-filling Network pipeline 就会被应用于生成组织中每个单独细胞的 3D 分割。
此外，其他的机器学习算法被应用于识别和表征 1.3 亿个突触，将每个 3D 片段分类为不同的子区域（如轴突、树突或细胞体），并识别其他感兴趣的结构，如髓磷脂和纤毛。自动重建的结果并不完美，所以人工校对了大约 100 个细胞的数据。随着时间推移，研究团队希望通过额外的手动操作和自动化的进一步发展，在这个经过验证的集合中添加额外的细胞。
成像数据、重建结果和注释都可以通过基于 web 的交互式 3D 可视化界面查看，这个界面叫做 Neuroglancer ，最初是为了可视化果蝇的大脑而开发的。

文章图片

Neuroglancer 是开源的，被广泛的应用于连接组学领域。研究团队引入新特征来支持分析 H01 数据集，特别是支持根据神经元的类型或其他属性搜索数据集中的特定神经元。

文章图片

连接 H01 和注释的 Neuroglancer 接口。用户可以根据细胞的层次和类型选择特定的细胞，可以查看输入和输出的突触。
H01 为大脑皮层研究奠定了基础
目前，这项研究的最新成果《A connectomic study of a petascale fragment of human cerebral cortex》已经发表在 bioRxiv 上，研究者展示了 H01 是如何被用来研究人类大脑皮层组织有趣方面。特别是，新的细胞类型已经被发现，以及「异常」轴突输入的存在，它们与目标树突建立了强大的突触连接。虽然这些发现是一个有希望的开始，但庞大的 H01 数据集，将为大脑皮层的进一步研究奠定基础。

文章图片

论文地址：
https://www.biorxiv.org/content/10.1101/2021.05.29.446289v1
为了加快对 H01 分析，研究团队还提供了使用 SimCLR 自监督学习变体训练神经网络生成的 H01 数据的嵌入。研究团队使用 Google Cloud TPU pods 对这些嵌入进行了训练，然后对分布在整个体积中的大约 40 亿个数据位置进行了推断。
自监督学习嵌入（embeddings）。
H01 是一个 PB 级的数据集，但只有整个人脑的百万分之一。在将突触级别的大脑映射扩展到整个老鼠大脑（比 H01 大 500 倍）存在严重的技术挑战，更不用说整个人类大脑了。面临的一个挑战是数据存储：一个老鼠的大脑可以产生一个 EB 级的数据，需要昂贵的存储。为了解决这个问题，研究团队还发表了一篇论文《Denoising-based Image Compression for Connectomics》，论文中描述了如何使用基于机器学习的去噪策略来压缩数据的细节，例如 H01 ，至少 17-fold（下图中的虚线），在自动重建中精度损失可以忽略不计。
论文地址：
https://www.biorxiv.org/content/10.1101/2021.05.29.445828v1
未来，数据集的庞大规模要求研究人员开发新的策略，来组织和访问连接数据中固有的丰富信息，这也是谷歌研究者提到未来继续努力的方向。
未来继续努力的方向。