面向边缘智能的模型推理优化技术简介( 二 )

模型分割:深度学习模型通常由多层神经元网络组成 , 不同网络层的资源消耗和中间数据输出量均不同 。 基于这一事实 , 深度学习模型分割技术将模型分割成若干部分 , 并以较小的传输代价 , 将其中计算密集的部分卸载到多个边缘服务器或邻近的移动设备 。 实现边缘计算模型推理 , 从而获得更好的实时性能图 。 为了实现性能最优化 , 模型分割点的选择通常需要考虑不同节点的可用计算和网络带宽资源 。

模型提前退出:为了加速深度模型推理 , 模型提前退出技术通过处理较为靠前的网络层输出结果提前结束模型推理 , 并获得最终输出结果 , 节省运行时间 。 值得注意的是 , 模型提前退出技术虽然能够有效降低资源消耗量 , 但同样会损害模型精度 , 因此在选择最佳模型退出点时 , 需要权衡优化性能与模型精度 。

模型选择:实现同一深度学习功能的模型通常有多个 。 以视觉应用中常用的物体检测功能为例 , 常用的模型有Yolo、VGG和AlexNer等 。 然而 , 针对同一输入 , 不同模型的资源消耗和识别精度不同 。 因此 , 我们可以针对输入动态自适应地选择最优模型 , 从而协同优化资源消耗和模型精度 。

推荐阅读