Mellema|马赛克在AI面前可能不安全了,新技术让厚码文字被还原
相信不少人都认为 , 只要打上了马赛克 , 就不会泄露敏感信息 , 因此 , 我们在朋友圈、微博等公开社交平台 , 经常能够看到打了马赛克的结婚照、证书照、成绩照等 。 但事实上 , 无论是图像、文字还是字符 , AI 还原马赛克已经不是什么难事了 。
12月14日 , 据媒体报道 , 一个名为Depix的项目引发热议 。 Depix能够解码被打上马赛克的文字 , 但只适用于使用线性方框滤波器创建的像素化图像 。 除了Depix , 谷歌的超强像素递归方案、杜克大学的AI算法PULSE , 也能将面目模糊的人像变得清晰可辨 。
文章图片
看一下效果图 , 其中 , 第一行是被像素化后的密码序列 , 被狠狠地打了一层马赛克 , 看不出一点原始痕迹 。
第二行是经过 AI 还原后的密码 , 可以看到密码序列基本被还原了 , 而且准确度很高 , 只有稍加推理就能得到第三行的原始密码
文章图片
那么 , 这个「不可思议」的 AI 还原技术是如何实现的?
我们知道 , 马赛克是图像像素化处理的一种手段 , 它通过将影像特定区域的色阶细节劣化并打乱色块 , 达到一种模糊图像的效果 。
像素化在许多领域被用于模糊图像信息 , 其中线性盒滤波器( Linear Box Filter)是一种较为普遍的处理算法 。 盒子滤波也称为方框滤波 , 它采用一个像素框 , 用该框中所有像素的平均值覆盖像素 。
像这样 , 表情图像被分为四个色块 , 每个色块被色块平均值所覆盖 , 最终形成了像素化表情 , 由于原始信息丢失 , 因此不能直接反转滤波器 。
文章图片
AI 还原算法 - DepixMellema 正是利用了盒子滤波器。
线性盒滤波器是一种确定性算法 , 对相同的值执行像素化通常会产生同样的像素块(Block) , 那么反之 , 使用相同位置的块对相同文本执行像素化 , 是否也会得到同样的块值?
Mellema 尝试通过像素化文本来找出匹配的模式 , 结果发现确实如此 。
具体来说 , Mellema 把每个块或块组合看作一个子问题 。 该算法要求在相同背景上 , 具备相同的文本大小和颜色 , 因此他没有选择创建潜在字符的查找表 , 因为现代文本编辑器可以添加色调、饱和度和亮度 , 也就是说存在海量潜在字符 。
在处理字符方面 , Mellema 使用待处理字符的德布鲁因序列(De Bruijn sequence) , 将其粘贴到相同的编辑器中 , 然后截图 。 该截图可用作相似块的查找图像 , 例如:
文章图片
德布鲁因序列包括待处理字符的所有双字符组合 , 这一点很重要 , 因为一些块会重叠两个字符 。
要找出合适的匹配需要搜索图像中具备相同像素配置的块 。 在测试中 , Depix 算法无法找到字符「o」 , 因为在搜索图像中 , 搜索块还包含下一个字母「d」 , 但在原始图像中这里有个空格 。
文章图片
显然 , 在创建字符的德布鲁因序列时 , 如果加上空格会带来同样的问题 , 即算法无法找到后续字母恰当的块 。 有空格又有字母的图像需要更长的搜索时间 , 但结果也更好 。
对于大多数像素化图像而言 , Depix 可以找到块的单个匹配结果 。 它先假设这些块是正确的 , 然后将周围多个匹配块进行比较 , 使其与像素化图像中的几何距离相同 , 并假设这些匹配也是正确的 。
在正确的块没有更多几何匹配后 , Depix 直接输出所有正确的块 。 对于多匹配块 , Depix 将输出所有匹配的平均值 。 虽然 Depix 的输出并不完美 , 但已经算不错了 。
下图展示了包含随机字符的测试图像的去像素化结果 , 大部分字符被正确读取:
文章图片
最后需要说明的是 , 这个 AI 项目并不是为了窃取信息 , 而是利用 ECB 和明文攻击(Known-Plaintext Attacks)的模式 , 提高信息保护技术 。 在他看来 , 不知道如何破坏当前的保护模式 , 是信息安全中的常见陷阱 。
AI 还原『人脸图像』
如前所述 , 除了字符密码 , AI 还原人脸照也不在话下 。
今年 6 月中旬 , 杜克大学推出 AI 算法—PULSE , 可以将低分辨率的人脸图像放大 64 倍 , 即使是打了马赛克 , 面部的毛孔、皱纹 , 头发也都能变得清晰可见 。
文章图片
不过 , 被还原的人脸是一全新的虚拟面孔 , 并不是真实存在的 。 其中眼睛、鼻子、嘴巴等五官是 AI 在原始图像的基础上 , 自行想象出的结果 。
【Mellema|马赛克在AI面前可能不安全了,新技术让厚码文字被还原】因此 , 这项 AI 技术不能用于身份识别 。 比如监控摄像头拍摄的失焦、无法辨别的图片 , 不能通过 PULSE 还原成真实存在的人像 。 不过 , 它在医学、显微镜、天文学 , 以及卫星图像等领域有着广泛的应用场景 。
在技术方面 , 不同其他超分辨率算法 , PULSE 不是遍历 LR(Low Resolution)图像来慢慢添加细节 , 而是发现与 HR 相对应的 LR , 通过 “缩减损失(Downscale)”的方式得到 SR(Super Resolution)图像 。
文章图片
其次 , PULSE 使用了生成对抗网络(GAN)来进行模型训练 。 GAN 包括一个生成器(Generator)和一个鉴别器(Discriminator) , 在同一组照片训练中 , 二者通过相互博弈的方式检验输出是否足够逼真 。
最后 , 无论是利用 AI 还原字符密码、还是人脸图像 , 其初心都是科技向善 。 但这些 AI 技术不可避免地被有些人用于不良或非法用途 。
因此 , 在这个科技高速发展的现在 , 保护个人数据显得尤为重要 。
推荐阅读
- 星链|石豪:在太空,马斯克和美国当局是如何作恶的
- 建设|这一次,我们用SASE为教育信息化建设保驾护航
- 生活|气笑了,这APP的年度报告是在嘲讽我吧
- 精度|将建模速率提升10倍,消费级3D扫描仪Magic Swift在2021高交会大显“身手”
- 最新消息|世界单体容量最大漂浮式光伏电站在德州并网发电
- 公司|科思科技:正在加速推进智能无线电基带处理芯片的研发
- 测试|图森未来完成全球首次无人驾驶重卡在公开道路的全无人化测试
- Monarch|消息称微软Win11 2022重大更新将在明年夏天到来
- 社交|Facebook被指试图在美政客中抹黑前雇员Frances Haugen声誉
- Intel|Intel在Alder Lake平台演示PM1743 PCIe Gen 5 SSD,带宽达14GB/s