吴军:落后最可怕的地方是思维方式的落后( 二 )
这里面主要的原因是,在图像识别和机器翻译领域,过去的数据量非常少,而这种数据的积累非常困难。图像识别就不用讲了,在互联网出现之前,没有一个实验室有上百万张图片。在机器翻译领域,所需要的数据除了一般的文本数据,还需要大量的双语(甚至是多语种)对照的数据,而在互联网出现之前,除了《圣经》和少量联合国文件,再也找不到类似的数据了。
在20世纪90年代互联网兴起之后,数据的获取变得非常容易。从1994年到2004年的10年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中20%左右的贡献来自方法的改进,80%则来自数据量的提升。虽然在每一年,计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。
数据驱动方法从20世纪70年代开始起步,在八九十年代得到缓慢但稳步的发展。进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这得益于数据量的增加。
全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。
推荐阅读
- edg战队|TES打野疑似PC遭停赛调查,爆料人苏沫女友遭网暴:混圈女真可怕
- edg战队|Scout致命失误葬送比赛,EDG教练团BP落后,EDG士气受打击!
- edg战队|9500万人听解说毒奶!EDG击败GEN后,管泽元微博却被喷沦陷:落后两千叫大优!
- edg战队|EDG大优势!管泽元毒奶EDG翻盘失败,1-2落后退无可退
- apex英雄|LCK统治力回归!四强对决全是熟人!最可怕是融入LPL的DK
- ghost|DK被MAD逼出绝招!落后七千翻盘!最终得靠四保一Ghost
- RNG|RNG“中单安妮”直接炸穿!11分钟落后6千经济,被EDG彻底打麻了
- 精灵宝可梦|《宝可梦》单打无极汰那有多可怕,真正意义上的高输出毒龙!
- cloud9|LOL:C9打野放话A组不可怕,之前也经历过并成功出线,信心可嘉
- 死亡之组|继LNG锁定小组D组后,S11最可怕“死亡之组”诞生:阿乐获两个外号!