计算机视觉之商品识别的技术难点及场景应用( 三 )_世界顶级人工智能交流合作平台2019世界

从技术上来看，商品识别分为两个步骤，第一步是目标检测，也就是在一个图片上先找到一个或者多个感兴趣的目标，一般用一个叫bounding-box的画框把目标抠出来。第二步是对这个画框的内容进行识别，区分具体是哪个商品。在大部分场景，第一步目标检测的难度是远远超过识别的难度。我们来看一个例子。

这是一个用手机拍摄的货架排面检查图片，图片里大概有几百个商品，这种高密集的目标检测，要做到一个不多一个不少是很困难的。现在流行的目标检测模型faster-rcnn或者yolo都不是针对这种高密集目标检测设计的，比较容易造成漏框和多框的错误。如果这个拍摄的摄像头是安装在店内的顶部，造成的拍摄角度会大大增加检测的难度。

商品的识别大部分是在特定的场景下进行，具体的物理摆放会大大增加识别的难度。下图是一个智能零售柜内用鱼眼摄像头拍到的图片，我们可以看到大部分商品只漏顶部的一些信息，有些只漏出瓶盖的部分，这样对类似商品的区分大大增加了难度。