我们把从日志信息提取行为语义的过程称为行为提取。行为提取可以完成从日志到行为的直接映射,可以看出行为提取是当前安全运营挑战的有一个有效解决方法,但它依然面临了两个挑战:事件语义的差异性和行为识别。语义差异性是指相同的日志在不同的上下文中具有不同的语义,这个语义的差异性跟自然语言中的语义差异性相似;而行为提取挑战更明显,因为终端日志的规模与高度交织性导致对其进行事件或行为划分变的异常困难。说了这么多,所谓的知识、语义在本文中是如何表示的,知识图谱技术通常是利用其实体与或边在图中的上下文来表示其语义。本文也借鉴这种表示以日志相关实体在图中的上下文表示日志的行为语义。可以通过聚合多个相关的日志来表示系统行为。基于这种表示,相似的行为可以被聚到一起。此外,可以看到通过聚类之后安全知识图谱可以提供一个关于高水平行为的边界,这种边界可以作为一种参考来通过关联多日志生成相应具有语义的行为信息。
下面场景是DARPA TC项目中的攻击场景,为了便于说明,后面的一些实例是以该场景为背景的。
文章插图
图1 应用实例的溯源图
首先来简单介绍该场景。企业内部员工想利用自己的权限窃取一些敏感信息,他的工作是软件测试工程师。该员工的日常工作包括使用git同步代码,使用gcc来编译源代码,使用apt命令安全相关的测试依赖包。如果该员工想窃取敏感文件(secret.txt),为了躲避检测,他需要模拟他的日常工作行为模式。首先该员工把敏感文件复制到该员工常用的工作目录中并重命名为pro2.c文件。然后,对该文件利用gcc进行编译,当前这个文件本身不是一个有效的源文件因此编译结果是不成功的,但是这不影响。该步只是为了模拟他日常工作行为模式。最后,该把该文件上传到了github上。该企业员工试图通过这种策略来窃取敏感数据。
为了对攻击行为进行有效的因果分析,当前已有的方法主要是基于审计日志构建有效的溯源图[6]来进行分析。本质上溯源图是一个系统行为的因果关系的通用表示方式。图1 即是上面场景的溯源图。边的方法表示不同实体之间的数据流向。在攻击调查过程中,分析人员对溯源图进行分析来找到与攻击相关的信息片段。在图1的实体中,分析人员首先会根据一个确定的事件进行后向溯源来找到攻击的起源。然而,分析人员也可以利用前向溯源技术,从确定的攻击事件来确定其攻击后果。利用溯源技术,安全分析人员不仅能推断该攻击事件的根因与攻击结果,还能给出高层的抽象行为。
当前终端设备记录的日志信息不仅仅包含了攻击行为也包含了系统的正常行为。虽然溯源图提供了具有因果依赖关系的系统行为的真观表示,但对于安全分析人员调查分析来说依然是非常耗时的。从日志中提取出抽象行为对于安全分析人员来说是有效的方法。本质上来说行为信息是对系统日志的一种抽象,安全分析人员在系统行为层面的处理将会大大减少其工作量。因此从系统日志中自动化提取高水平行为信息成为智能安全运营的核心工作。
三. 安全知识图谱构建
以WATSON[7]为参考该自动化攻击行为提取主要包括三个阶段,如图2所示包括知识图构建,行为提取和代表行为识别。其核心模块包含安全知识图谱、事件推理模型、行为抽象模型和行为语义聚合模型来。其中安全知识图谱是由系统日志转换成图谱的形式。事件推理模型是行为抽象过程的核心,其使用图嵌入模型来推理安全知识图谱中节点的语义,行为概要模块枚举出所有的表示行为实体的子图。最后代表行为识别是利用聚类算法对语义相似的子图进行聚类,并从每个聚类中找到最具代表性的行为。
推荐阅读
- 网络攻击|乌克兰政府网站遭遇大规模网络攻击
- 网站|外媒:乌克兰政府网站遭到大规模网络攻击
- 新社|乌克兰政府网站遭遇大规模网络攻击
- OS|一家酒店遭勒索软件攻击,酒店随后将 Windows 电脑切换成 Chrome OS
- 泄露|松下称黑客在网络攻击中获取了求职者的个人资料
- Log4j|2021 网络攻击同比增长 50%,Log4j 漏洞“功不可没”
- 网络安全|2021 网络攻击同比增长 50%,Log4j 漏洞“功不可没”
- 寄宿学校|又有勒索软件攻击事件 美国4500所学校受影响
- 事件|又有勒索软件攻击事件 全美4500所学校受影响
- 黑客|Woollim旗下艺人SNS疑似遭黑客攻击?全换神秘黑头像引发网友关注