吴军:落后最可怕的地方是思维方式的落后( 九 )

这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。

5

互联网公司的争夺和大数据应用

今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为「点击模型」。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占70%~80%的权重,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了。

当然,点击模型的准确性取决于数据量的大小。对于常见的搜索,比如「虚拟现实」,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如「毕加索早期作品介绍」,需要很长的时间才能收集到「足够多的数据」来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。微软的搜索引擎在很长的时间里做不过Google的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎相对百度最大的劣势也在于数据量上。

推荐阅读