文章插图
图4 溯源图
为了从安全知识图谱中抽取出描述行为实例的子图,可以采用了一种自适用的前向深度优先遍历方法。图4中给出了行为概要子图的示例。在图遍历过程中考虑了行为的时序关系,也就是后一个行为要发生在前一个行为之后。这种时间约束会过滤掉一大部分依赖关系。此外,可以看出一个系统实体的祖先通常包含了关键行为上下文,然而这种祖先节点在前向深度优先遍历中是捕获不到的,因为其属性后向依赖节点。因此,在图遍历过程中需要包含其一跳入边。
由于审计日志记录的是粗粒度的依赖关系,因此不可避免的面临依赖爆炸的问题。然而解决依赖爆炸问题并不是这里讨论的的内容。
三.3 代表行为识别
基于以上处理之后,需要基于安全知识图谱抽取出行为实例的语义信息。每个行为实例的划分都包含了一些审计事件,这些审计事件的语义信息是通过嵌入矩阵的高维向量来表示。针对行为实例的语义向量的获取,一个比较简单的方法是把该实例中所有事件的向量相加。然后,这种方法的有效性是建立在如下假设基础上的:一个行为实例所包含的所有事件对其语义的贡献都是相同的。显然这种假设在实际情况是很难满足的。
对于一个高水平任务,它可能包含了底层一系列相关操作,但是每个底层操作的重要性与必要性对于该任务来说是不同的。例如图4中的程序编译过程,用户通常不会直接编译源代码,而是先利用ls或是dir命令定位源代码。像ls和dir这种命令能表示用户的行为,但是对高层任务的语义贡献较小。因此,像这类样板操作在实际的行为表示中会给予更少的关注。关键的问题是如何自动化的给出每一个操作的相对重要度(重要性权重)。通过观察可以看到与行为不相关的事件在会话中会更普遍,因此它们在不同的行为中不为断的重复,而实际与行为相关的事件发生的频率反而较低。基于该观察,可以使用事件的频率作为事件重要度的一种度量。这里可以使用IDF(Inverse Document Frequency)来定义事件对于所有行为的重要度。为了与IDF的使用相对应,审计事件可以看成文档中的词,用户会话可以看成文档。事件的IDF计算公式表示如下:
文章插图
针对每个行为划分中的事件都有使用IDF计算的权重,用以表示其对于该行为语义的重要度或贡献度。
在当前场景中一个行为可以认为是一些语义相似的行为实例的集合。因此,聚类中的标签性的行为实例是具有代表性的实例(如聚类中性)。如果能够确定有效的行为标签,安全运营人员就不需要对聚类空间中所有的行为实例进行调查,而仅仅调查具有代表性的行为实例即可,这将大大提供攻击调查的自动化水平。在已知不同行为实例的向量表示后,可以使用cosine相似度来计算安们之间的语义关系:
文章插图
为了把具有相似语义的行为实例聚合到一起,可以采用的是凝聚层次聚类分析算法(HCA)。在对安全知识图谱进行聚类后,从每个聚类中找到一个具有代表的行为。四. 总结
当前安全知识图谱相关应用主要在威胁情报上,从知识图谱的构建,分析到推理各个阶段都有相关的应用。而在攻击识别与攻击溯源方向并没有较好的落地点。其关键还是安全知识如何来指导安全设备来进行检测与溯源,在这方面微软做了一些探索,主要还是把安全知识转化成攻击行为之间的转移概率。本文主要分析了如何利用安全知识图谱自动地提取出行为语义并对其进行分析,但是距离真正的自动化行为提取还有很长的路要走。
推荐阅读
- 网络攻击|乌克兰政府网站遭遇大规模网络攻击
- 网站|外媒:乌克兰政府网站遭到大规模网络攻击
- 新社|乌克兰政府网站遭遇大规模网络攻击
- OS|一家酒店遭勒索软件攻击,酒店随后将 Windows 电脑切换成 Chrome OS
- 泄露|松下称黑客在网络攻击中获取了求职者的个人资料
- Log4j|2021 网络攻击同比增长 50%,Log4j 漏洞“功不可没”
- 网络安全|2021 网络攻击同比增长 50%,Log4j 漏洞“功不可没”
- 寄宿学校|又有勒索软件攻击事件 美国4500所学校受影响
- 事件|又有勒索软件攻击事件 全美4500所学校受影响
- 黑客|Woollim旗下艺人SNS疑似遭黑客攻击?全换神秘黑头像引发网友关注