计算机视觉之商品识别的技术难点及场景应用( 三 )

从技术上来看,商品识别分为两个步骤,第一步是目标检测,也就是在一个图片上先找到一个或者多个感兴趣的目标,一般用一个叫bounding-box的画框把目标抠出来。第二步是对这个画框的内容进行识别,区分具体是哪个商品。在大部分场景,第一步目标检测的难度是远远超过识别的难度。我们来看一个例子。

计算机视觉之商品识别的技术难点及场景应用

这是一个用手机拍摄的货架排面检查图片,图片里大概有几百个商品,这种高密集的目标检测,要做到一个不多一个不少是很困难的。现在流行的目标检测模型faster-rcnn或者yolo都不是针对这种高密集目标检测设计的,比较容易造成漏框和多框的错误。如果这个拍摄的摄像头是安装在店内的顶部,造成的拍摄角度会大大增加检测的难度。

商品的识别大部分是在特定的场景下进行,具体的物理摆放会大大增加识别的难度。下图是一个智能零售柜内用鱼眼摄像头拍到的图片,我们可以看到大部分商品只漏顶部的一些信息,有些只漏出瓶盖的部分,这样对类似商品的区分大大增加了难度。

推荐阅读