对话旷视孙剑:比TensorFlow还早半年,旷视Brain++的进化法则( 九 )

另外 , 多任务与多用户调度能力也是Brain++的一个特色 。 旷视针对算力分配利用透明计算的原理 , 开发了一层软件进行计算资源的管理与调度优化 , 可以在用户空闲时临时收回资源分配 , 进而支持数百研究人员同时在上万块GPU上进行上从数百到数千个训练任务 。

两种方式互相结合 , 可以在保证训练效率的情况下让算力能够被最高限度的利用 。

那么这样一个由三大部分构成的Brain++ , 相比Caffe、TensorFlow有什么不同呢?

首先是完全自主研发 。 孙剑表示 , Brain++的意义在于更加适配旷视自身的研发以及开发需求 , 否则针对TensorFlow等框架去“改现有的东西 , 其实是很难改或低效的 。 当代码已经很庞大时 , 你很难快速的去做这些调整 。 而我们自己的东西 , 你可以很容易的去做修改 , 去验证这些东西 。 ”

其次是针对计算机视觉任务的定制化优化:在Brain++中 , 旷视针对计算机视觉做了很多的优化 。

以2018年孙剑发布的CVPR文章为例 , 这篇文章从mini-batch角度为加速深度神经网络训练提供了一种叫做“MegDet”的新型检测 。 这个技术第一次实现了在训练物体检测时可以用一个多达256多个样本的“大mini-batch”的检测器 , 用128张GPU卡训练任务 , 进而将训练时间从33小时减少到4小时 。

推荐阅读