面向边缘智能的模型推理优化技术简介_在深度学习模型的部署（即模型推理）阶

在深度学习模型的部署（即模型推理）阶段，为了在算力和能耗均受限的边缘或终端设备实现低延迟和高效能的模型推理，现有的优化技术主要可以分为模型压缩、模型分割、模型提前退出、模型选择、边缘缓存、输入过滤、面向应用优化等7种。

模型压缩：通过压缩深度学习模型，可以使模型从“大”变“小” ，从而降低模型复杂度和资源需求，更好地在资源受限的边缘设备上实现低延迟和低能耗的模型推理。模型压缩的常用方法包括权重剪枝（weight pruning）和数据量化（quantization）。其中，权重剪枝的基本思想为：深度学习模型中含有大量的权重参数，然而不同的权重参数对模型表示能力（即模型精确度）的贡献具有差异。因此，通过删除重要程度低（即对模型表示能力贡献少）的权重参数，可以达到以牺牲少量模型精度为前提，显著降低模型资源消耗的目的。数据量化是另一项用于模型压缩的主流技术，其基本思想为通过低精度的数值来表示权重参数，例如8比特、4比特甚至1比特，从而降低模型的复杂度和资源消耗。值得注意的是，数据量化同样会降低模型精度。