吴军：落后最可怕的地方是思维方式的落后( 二 )_题图：《浪潮之巅》作者、元丰资本创始

这里面主要的原因是，在图像识别和机器翻译领域，过去的数据量非常少，而这种数据的积累非常困难。图像识别就不用讲了，在互联网出现之前，没有一个实验室有上百万张图片。在机器翻译领域，所需要的数据除了一般的文本数据，还需要大量的双语（甚至是多语种）对照的数据，而在互联网出现之前，除了《圣经》和少量联合国文件，再也找不到类似的数据了。

在20世纪90年代互联网兴起之后，数据的获取变得非常容易。从1994年到2004年的10年里，语音识别的错误率减少了一半，而机器翻译的准确性提高了一倍，其中20%左右的贡献来自方法的改进，80%则来自数据量的提升。虽然在每一年，计算机在解决各种智能问题上的进步幅度并不大，但是十几年量的积累，最终促成了质变。

数据驱动方法从20世纪70年代开始起步，在八九十年代得到缓慢但稳步的发展。进入21世纪后，由于互联网的出现，使得可用的数据量剧增，数据驱动方法的优势越来越明显，最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情，计算机已经可以胜任了，这得益于数据量的增加。

全世界各个领域数据不断向外扩展，渐渐形成了另外一个特点，那就是很多数据开始出现交叉，各个维度的数据从点和线渐渐连成了网，或者说，数据之间的关联性极大地增强，在这样的背景下，就出现了大数据。