拿来就能用!如何用 AI 算法提高安全运维效率? | 技术头条(17)
很可能包含一些HTML标签或者事件属性 , 比如html标签scriptimgstyle等 , 比如事件属性 onerror onload等所有on事件 src href等;
通常情况下 , 需要闭合 , 比如 ‘ “/script/textarea等;
可能包含一些探测关键字/函数 , 比如 xss alert(1) document.cookie等;
通常情况下 , 如果黑客进行利用需要引入三方js , 需要注意短链接等;
通常情况下 , 在js中需要连接字符 , 比如注释后面// 比如连接可执行js代码; -+ /* ^等;
去掉闭合支付之后 , 是一些可解析执行的js语句或者HTML语句 。
……
从安全工程师的角度去分析 , 我们能发现很多特征 , 但是这里我们需要学习如何把这些特征转换为机器能够识别的特征 。 作为文本特征的提取 , 首先是分词 , 然后对分词的特征进行处理 。 再想办法把这些特征进行处理 , 让他们变成机器能识别的特征向量 。 比较简单的特征提取方式就是直接针 对敏感字符/关键字的个数进行统计和分析 , 这个更符合统计学的思路 , 感兴趣的朋友可以参考《Web安全之机器学习入门》 。 这里我们尝试另一种思路 , 选择嵌入式词向量(Word embedding) , 嵌入式词向量就是通过学习文本来用词向量表征词的语义信息 , 通过将词嵌入空间使得语义相似的词在空间内的距离接近 。 因为XSS攻击通常执行的是HTML/JavaScript脚本 , 是具有一些语义的关联 。 这里我们可以使用嵌入式词向量模型 , 建立一个XSS的语义模型 , 让机器能够理解script、alert()这样的语言 , 这样看起来更符合人类分析的模式 。 首先我们进行分词:推荐阅读
- steam|何广智首秀金铲铲之战?上来就要PK神超红莲,这位是来搞笑的吧?
- edg战队|青史待留名!多么希望这些中国队员们能用我们中国人自己的名字
- 阴阳师|阴阳师:这几位看似过气实则偶尔确实能用 六星练度务必一直保留
- 原神|原神:托马培养方案一览,胡桃不来就算了,他总没那么大面子吧?
- 金泰相|LOL:Doinb知耻而后勇,直播苦练妖姬和佐伊,希望明年能用到
- ag战队|英雄联盟手游,拳头本来就懒得做,谁知道他怎么开窍了
- 赤色要塞|玩经典游戏《赤色要塞》魔改版:吉普车也能用激光炮,童年梦想实现了
- lpl|为什么LPL被淘汰的三支战队不能用“可惜”这个词?
- 剑网3|梦幻西游:龙宫的新经脉怪物能用吗?抗法爆属性的灵饰要涨价了
- 谛听|梦幻西游:涛哥千亿领须弥,12JN谛听合出来就是四轮车