AI 算法的进化:机器会引发战争吗?( 四 )


数据像是一种新型“石油” , 而我们却把它“倒”在互联网上了 。谁拥有这些数据以及如何利用好这些数据 , 将是我们走向由这种新型“石油”推动的未来时 , 社会将要面临的一个重大问题 。
AI 算法的进化:机器会引发战争吗?
文章图片

如何训练算法
如果算法告诉你你可能会喜欢什么 , 那么就意味着你将永远都看不到算法认为你不喜欢的东西 。知道了这一点 , 你是否感到一点隐隐的不安?对我来说 , 我很享受被引导找到自己喜欢的音乐的过程 。此前 , 我经常不得不循环播放相同的歌曲 , 这也是为什么我总是听收音机的原因 。现在 , 算法“连推带拉”地引导我从音乐库中挖到属于我自己的“宝石” 。对于这些算法 , 我最初也曾有过怀疑:它会不会产生“口味”趋同的效应 , 导致所有用户最终都只关注音乐库中的一部分歌曲 , 而使另外一些歌曲失去听众呢?但后来我发现 , 这些算法都采用了非线性或混沌理论的数学思想:我和你喜欢的音乐风格只要略微不同 , 那么被推荐的歌曲将会大相径庭 。
当在户外跑步时 , 我听了许多算法推荐的歌曲 , 它帮我找到了很多好听的新歌 。几周前 , 妻子想要在她的生日聚会上跳舞 , 让我帮她挑选一些20世纪80年代的歌曲 。但生日聚会结束后的第二天 , 我又去户外跑步时发现 , 算法给我推荐的全部都是20世纪80年代的舞曲 , 于是我不停地按“下一曲” , 但切换后出现的还是类似的歌曲 。之后我通过听其他音乐重新训练算法 , 花了好几周的时间才将这一切恢复如常 。
电子邮件过滤器也是基于人机交互训练算法工作的 。选用一些对你来说不是特别重要的邮件作为训练数据 , 将其中一部分标记为垃圾邮件 , 另一部分标记为正常邮件 。通过分析这些邮件中出现的单词 , 算法开始构建垃圾邮件过滤的规则:带有“伟哥”、“火辣的俄罗斯人”这一词汇的邮件100%是垃圾邮件;带有“再融资”这一词汇的邮件99%是垃圾邮件;带有“糖尿病”这个词的邮件不确定性比较大 , 因为似乎有一些人借助垃圾邮件四处传播治疗糖尿病的广告 , 但也有一些属于正常的邮件 。所以 , 算法对这部分邮件进行了简单的统计分析 , 发现每20封含有“糖尿病”这个词的邮件中 , 只有1封属于正常邮件 。因此 , 算法最终确定包含有“糖尿病”这一词汇的邮件有95%的可能是垃圾邮件 。
电子邮件过滤器可设置不同的过滤级别 。比如 , 只有在邮件有95%的概率是垃圾邮件的情况下 , 该邮件才应该进入“垃圾邮件”文件夹 。但现在更酷的是:虽然算法的训练数据是一组普通的电子邮件 , 但你的日常行为也将教会它识别你感兴趣的事情—算法会根据你所发出的邮件做出判断 。假设你患有糖尿病 , 那么 , 根据你设置的最初过滤级别 , 所有带有“糖尿病”一词的邮件都会进入“垃圾邮件”文件夹 。但渐渐地 , 随着你将越来越多的电子邮件(包括“糖尿病”一词)标记为“合法” , 算法会重新校准已构建的邮件过滤规则 , 将这类邮件所对应的概率降至远低于95%的水平 , 这类电子邮件就会正常地进入收件箱而不是“垃圾邮件”文件夹 。
不仅如此 , 算法还会自主创建新的算法 , 用于从所有包含“糖尿病”一词的邮件中区分出垃圾邮件和正常邮件 。其方法是引入其他的关键词 , 例如“治愈” 。机器学习算法将遍历你收到的每一封电子邮件 , 试图从中找出信息和关联 , 直到最后形成一个适合你个人生活方式的定制算法 。
无人驾驶汽车也是基于这样的概率更新原理而设计的 , 虽然它的控制系统远比这复杂得多 。该算法根据感知所获得的道路、车辆位置和障碍物信息等 , 来控制车辆的转向和速度 。
偏见和盲点
Netflix的推荐系统算法可以提取出影片中那些人类都难以名状的特征 , 非常令人不可思议 。这无疑挑战了洛夫莱斯的观点 , 即机器永远无法突破程序员思维的局限 。现如今 , 机器掌握了人类所不具备的一项技能:对海量数据进行分析 , 并从中发掘出有价值的信息 。

推荐阅读