创新工场“AI蒙汗药”入选NeurIPS 2019,3年VC+AI布局进入科研收获季( 三 )

例如,在训练(学习阶段)或是预测(推理阶段)这两个过程中,机器学习模型就都有可能被对手攻击,而攻击的手段也是多种多样。

创新工场AI工程院为此专门成立了AI安全实验室,针对人工智能系统的安全性进行了深入对评估和研究。

在被NeurIPS收录的论文中,核心贡献就是提出了高效生成对抗训练数据的最先进方法之一——DeepConfuse。

给数据下毒

通过劫持神经网络的训练过程,教会噪声生成器为训练样本添加一个有界的扰动,使得该训练样本训练得到的机器学习模型在面对测试样本时的泛化能力尽可能地差,非常巧妙地实现了“数据下毒”。

顾名思义,“数据下毒”即让训练数据“中毒”,具体的攻击策略是通过干扰模型的训练过程,对其完整性造成影响,进而让模型的后续预测过程出现偏差。

“数据下毒”与常见的“对抗样本攻击”是不同的攻击手段,存在于不同的威胁场景:前者通过修改训练数据让模型“中毒”,后者通过修改待测试的样本让模型“受骗”。

推荐阅读