旷视首席科学家孙剑:深度学习变革视觉计算丨CCF-GAIR 2019(16)

计算机视觉研究虽然场景很多 , 至今可以归类为几个问题:分类、检测、分割以及将前三者用于视频序列的识别工作 。

计算机视觉尤其是语义理解核心是如何在计算机中表示一张照片 , 以至于可以操作它、理解它 , 用它做各种各样的应用 。 最早期的研究包括David Marr提出的 2.5D Sketch , 和Part-base的表示 。

90年代的神经网络主要用来做做字符识别、人脸检测 。 2000年左右 , 类似Boosting的机器学习方法第一次引入学习特征 。

2000年后最好的方法是Feature-base , 从一张图中抽取很多局部的特征 , 编码成一个非常长的向量 。 2010年深度学习后 , 神经网络给我们带来了更强大的视觉表示方法 。

推荐阅读