特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。( 二 )


文章图片


特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。
文章图片

看到没有?只要保留线条 , 就算是简单的黑白线条 , 查重率还是 100%。 而且线条的数据量一看就比颜色小得多 , 处理起来更容易 。
知道要提取哪方面的特征之后 , 我们还得把特征量化成数字 。 咱们再来看看下面这张图 , 系统会先砍掉大部分色彩及尺寸数据 , 得到 32 * 32 像素的灰度图 。

特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。
文章图片

接下来 , 对这张黑白马赛克的线条特征进行一次信息提取 。

特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。
文章图片

可以看出来 , 线条部分像素灰度变化大( 红圈内 ) , 相同灰度像素点出现的频次较低 。
而大面积着色部分像素灰度变化小( 绿圈内 ) , 相同灰度像素点出现频次较多 。
根据这个特征 , 我们就可以对像素点进行一次重排 , 把出现频次低的像素点扔到左上角的位置 。

特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。
文章图片

这样一来 , 我们就可以用左上角的这些像素来表示这张图片的线条 , 这一下子又省事了不少 。
【特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。】但这还不够 , 还得想办法把它变成一个字符串 。
处理办法也不难 , 系统会在这一步计算出这堆像素点的平均灰度值 。
像素点灰度低于这个平均值的计为 0, 高于平均值的计为 1, 之后我们就会得到一串字符串 , 它就是图像的二进制哈希值代表 , 当然 , 实际运用中还会继续换算成十六进制哈希值 。

特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。
文章图片

从图片变成一小段字符 , 数据比对的工作效率一下子就高多了 。
这项技术最早由微软与 Hany Farid 教授共同开发 , 如今已经发展得非常成熟 , 特别是在打击违法文件传播的工作中应用十分广泛 。
没错 , 如果有人用网盘传给你的远古色图被夹了 , 那一定就是这项技术的功劳 。
几个月前 , 苹果为了打击儿童色情犯罪行为 , 扫描用户相册使用的也是哈希技术 。 只要通过对比 CSAM ( 儿童性虐待材料 )数据库中已存在的哈希值序列 , 就可以检测用户手机中是否存在违规照片 。

特征|想防裸照被发,得先自己上传,脸书搞色色搞了个寂寞。
文章图片

但它只能在广泛流传的文件中奏效 , 如果想用同样的方法毙掉网上的私密照片 ,不好意思 , 服务器上没有你裸照对应的哈希值 。

推荐阅读