中国|院士报告厅|杜如虚:智能制造产业创新、布局与应变( 五 )


人工智能算法的发展 , 也包括了硬件的因素 。 大概分了五类 , 决策论、神经元网络、进化论、统计分析和模拟分析 。 有一本科普的书《终极算法》把这些算法描述得非常清楚 。 算法的主要目的是什么 , 就是学习 。 如果人工智能是一个很大的饼 , 其中的机器学习可能是80% 。 比如我们读一本杜甫的诗集 , 因为我姓杜所以我特别迷信杜甫 , “会当凌绝顶、一览众山小” , 每次到山中就会想起“会当凌绝顶” , 每次会有不同的感受 。 也是这样的 , 每次你读一本书都会有不同的想法 , 你能够学到什么 , 还取决于当时、当世、当人 , 每个人都有不同的体会 。
尽可能多的知识是什么?这个不好定义 。
最近的一些算法包括谷歌的Transformer自我专注学习 , 包括对比学习、变分自编码器、对抗神经网络等等 。 每个都有一些很有意思的故事 。 我今天跟大家介绍下对抗神经网络 , 目前我们也在做这些算法 , 但我们跟国际一些最先进的算法还有一段距离 , 还得发展一段时间 。
我们的算法是基于对抗神经网络 。 很多人都说对抗神经网络就是和某某人坐在一起讨论 。 这是经过许多人、许多代持续地努力才走到今天 , 它的技术至少可以追溯到Bradley Efron(布拉德利·埃弗龙 , 美国统计学家) 。 他在1970年代末写了一篇文章提出了所谓的“自举”的概念 。 比如说 , 我们有一个样本空间 , 我们可以对它进行采样 , 在座的这么多人 , 我中间来问一个人“去年你们公司是挣钱了还是亏本了?”我大概就可以判断一下去年的经济好不好 。 我们做一个采访 , 可以估计他平均多赚了多少、平均少赚了多少 。 我就可以得出推论 , 是不是深圳是这样的 , 或者是全中国的情况是这样的?Bradley Efron说 , 不是这样的 , 他说你可以再采样、再采样、再采样 , 几个人问完了以后可以再问 , 可以把数据不停地再组装 , 装完了以后再做统计分析 。 原来就是这么几个公式 , 叫做大数据 , 就是工程统计 , 这个东西是著名的数学王子高斯180年前发现的公式 。 他有一套新的工具可以再组装做得更好 , 那个公式是比较长的 。 这个理论真的好用 。 人们就发现这个统计量可以自举 , 可以自己再次重复地使用 。 比如时间序列、时间的变化、股票的变化都可以自举 , 神经元网络也可以自举 。 这是20世纪统计学的一个突破 。
时间又过了20年、30年 , 英国的Ian Good fellow[生成对抗网络(GAN)的创造者] , 他在加拿大蒙特利尔大学师从图灵奖的获得者 , 毕业以后他到美国谷歌做研究 。 在美国做研究跟中国不一样 , 不会有一些发文章的指标 , 他们很少做这个 。 他们不算你教了多少门课 , 他只看你做的东西行不行 , 以及对这个世界的影响 。 有些人可能一辈子默默无闻没有做出什么来 , 但是有些人像Ian Goodfellow就做了这么一个算法“对抗神经元网络” 。 刚刚讲到神经网络可以自举 , 可以设计很多各种各样的神经网络 , 可以模拟各种各样的东西 。 比如模拟股票 , 这个时候问题来了 , 你生成的那些东西可能都没有什么用 , 大部分都是一些垃圾 。

推荐阅读