文|月亮湾探险家

编辑|月亮湾探险家

基于弹性堆栈（ELK）的框架

如今，用户和应用程序日志的速度如此之快，如果不使用高性能系统和平台，几乎不可能对其进行实时分析。

在网络安全中，人类行为是最常见攻击（即勒索软件和网络钓鱼）的直接或间接原因。

为了监控用户行为，有必要处理来自不同和异构来源的快速用户日志，其中缺少部分数据或某些完整来源。

为此，提出了一种基于弹性堆栈（ELK）的框架来实时处理和存储来自不同用户和应用程序的日志数据。

该系统利用基于ELK的软件架构和Kubernetes平台的优势，生成一组模型来对用户行为，进行分类并实时检测异常。

此外，分布式进化算法用于通过利用来自许多数据源的数字足迹对用户进行分类。

在两个真实数据集上，进行的实验验证了该方法在检测用户行为异常、处理丢失数据和降低误报数量方面的优势。

近年来，由于网络犯罪严重威胁着国家政府和许多行业的经济，许多行业和政府对网络安全风险的考虑不断增加。

因此，必须采取适当和及时的对策来保护系统的安全漏洞和弱点免受潜在攻击，以最大限度地减少所有风险。

此外，计算机网络活动、人类行为等都会产生大量的数据，在设计网络安全保护的系统和框架时必须考虑这些数据。

用户行为可能会导致多种漏洞；例如，他们可以为多个工作和个人应用程序使用易于猜测的密码，并且过度信任社交网络和技术的使用。

2021 年，由IBM威胁情报指数中，勒索软件是最主要的攻击类型 (21%)，利用网络钓鱼进行初始访问的攻击百分比约为 41%，两者均主要由用户行为引起。

通常，这些行为或随之而来的漏洞是在攻击已经发生时进行分析的；相反，有必要采取积极主动的方法来避免启用这些漏洞。

因此，在人为因素导致的安全弱点下运行的系统必须考虑几个关键方面，例如分析用户以获得更好和更有针对性的行动，实时分析大型日志以及在丢失数据的情况下高效工作。

分布式数据挖掘和机器学习技术可用于有效打击并减轻影响或防止网络犯罪分子的行为，尤其是在存在大型数据集的情况下。

特别是，分类被有效地用于许多网络安全应用程序，即用户行为分类、风险和攻击分析、入侵检测系统等。

在集成学习范式中，多个分类模型通过预测算法进行训练，然后将它们的预测组合起来对新的元组进行分类。

这种范式相对于使用单一模型有几个优点，即它减少了误差的方差、偏差和对单一数据集的依赖，并且在不平衡类的情况下效果很好；此外，集成可以逐步构建，并且可以轻松地在分布式环境中实现。

通常，用户配置文件的分类或聚类通常用作改进异常用户行为检测和检测可能异常的初步任务。

实际上，在监督（或半监督）异常检测方法中，分类任务用于将用户的正常行为与异常行为区分开来。

这两种技术的主要区别在于，该算法必须在受监督的异常检测中分析包含正常和异常行为的数据流。

相反，在半监督技术中仅包含有关正常行为的数据。我们的系统遵循半监督方法，因为在现实世界中，很难有足够数量的“真实”异常来训练分类算法。

然而，由于异常检测或分类任务是有效的，因此必须采用高效的数据索引来实时处理异构且通常不平衡的数据日志。

此外，这些算法需要搜索和查询与用户行为相关的大数据，对实际海量数据集的全文搜索有严格的要求。

为了克服上述问题，我们提出了一个基于弹性堆栈的框架来处理和存储来自不同用户的数据，并生成一组分类器来对用户行为进行分类，并利用这种分类来有效地检测他们行为中的异常。

ELK提供的高性能架构

在实践中，该系统使用ELK提供的高性能架构，运行在基于 Kubernetes 的平台之上，并采用分布式进化算法根据从许多日志中派生的数字足迹对用户进行分类。

此外，作为一项新的结果任务，该框架允许对用户行为异常进行个性化。

实际上，之前介绍的分类算法，在这里用作识别可能异常的初步步骤，方法是将一类风险与用户，的通常行为相差预定义阈值的所有元组相关联。

然后，异常检测任务被重新表述为用户/组识别任务的组合，遵循数字足迹属于其相应用户/组的概率越低，异常行为越多的原则。

在两个真实数据集上进行的实验验证了该方法在检测用户行为异常、处理丢失数据和降低误报数量方面的优势。

它可用于防止与人为因素相关的网络安全问题的不同任务，例如用户配置文件和风险的分类以及误用/滥用用户行为的异常检测。

人们越来越关注监视用户行为和操作的任务，并使用基于机器学习的方法来分析生成的日志，以最大限度地减少或防止网络安全风险或欺诈。

大多数作品源自用户与计算机、网络或社交网络的交互方式。例如，利用用户会话期间的鼠标速度、距离、角度和点击次数等信息进行用户识别和伪装检测。

采用SVM（支持向量机）机器学习算法，检测率高达96%，误报率极低。

这种方法的优点是首先引入了对来自与GUI交互的数据的分析。尽管如此，它仍无法应对缺失的功能和不同的数据源。

分析用户（正常）行为，不仅要考虑计算机使用情况，还要考虑网络资源。

他们通过使用基于最小描述长度(MDL)原则的改进算法来提高决策树分类模型的泛化性能。

与之前的工作一样，没有考虑丢失的数据，而且该方法也不适用于快速日志流。

作者根据不同会话期间配置文件用户的正常使用模式来处理异常检测任务。

主要是，通过监控应用程序使用情况、应用程序性能（CPU和内存）、用户访问的网站、用户打开的窗口数量以及他们的打字习惯来对用户行为进行建模。

实验结果表明，与身体相关的特征与分析用户行为相关，并且结合这些特征可以显着减少检测时间。

这种方法提高了处理数据日志的效率，但与我们的系统不同的是，它没有考虑不同的数据源，也没有利用用户组的信息。

从许多异构数据源（即鼠标、键盘、进程和文件系统访问）构建了一个包含24 个用户的数据集，其中混合了常规和恶意活动，用于测试伪装者和叛徒活动的算法。

他们进行了多项统计来分析这个数据集，但没有采用先进的机器学习技术。

基于用户日志数据的三类数据集的使用：用户每日活动摘要、电子邮件内容主题分布和用户每周电子邮件通信历史。

然后，在每个数据集上独立训练异常检测模型。实验结果表明，所提出的框架可以很好地适用于只有少数内部威胁的不平衡数据集，并且没有提供领域专家的知识。

这种方法的局限性在于开发的模型没有像我们的方法那样与集成或其他东西相结合；因此，他们很难处理丢失的数据源。

数字足迹及其在异常检测中的应用

本节介绍本文中使用的异常检测方法以及选择作为此任务输入的日志数据（数字足迹）的不同来源。

分析用户行为，既是为了将用户分类到同质类别中，也是为了检测他们行为中的异常情况，需要处理不同的信息来源，其中一些信息缺失并具有异质特征。

事实上，用户数据集可以包括人口统计和教育信息，例如姓名、年龄、国家、教育水平、计算机知识、任务知识等。

并且还可以包括关于用户在其中进行操作的比赛以及他们在系统中的角色的信息。

除了这些数据（如果我们考虑合理的时间量通常不会改变）之外，还有必要收集操作和行为数据（例如，用户连接到系统的 IP 地址、操作系统和使用的浏览器、持续时间）会议等，还应考虑随时间的变化。

不幸的是，出于明显的隐私原因和几种不同的动机（即我们有具有不同角色的用户，因此可以仅监视某些类型的用户，某些用户不希望授权披露某些数据）。

因此，对于不同的用户，一些来源是缺失的，必须有效地面对这个问题以获得准确的分类。

通常，所有这些数据都被称为数字足迹，即用户在连接到网络、使用社交网络或仅通过他们的 PC 时留下的痕迹。

更详细地说，我们监控三个主要数据源：键盘、鼠标和用户花费大部分时间的主要应用程序/类别。

至于键盘和隐私方面的原因，如图1a所示，我们只记录与用户按下的键对应的键盘区域，包括字母数字字符和特殊符号。

至于鼠标，我们存储所有由鼠标移动和点击产生的动作。更具体地说，这些数据指的是光标在屏幕上的位置。

不过，我们并没有存储确切的位置，而是将屏幕分成 16 个部分（使用 4 个水平和 4 个垂直条纹，距离相等）。

我们仅保存一个数字，用于标识用户单击或移动鼠标的相应屏幕部分（见图1b）。

应用程序的使用情况通过 CPU 使用情况、应用程序打开次数和内存使用情况进行监控。对于类别（应用程序所属）也是如此。最后，所有这些统计数据都在 30 分钟的时间窗口内进行了平均。

提出了一种基于弹性堆栈的高性能框架，用于处理和存储监控公司用户行为的大量快速数据流。

该框架可以有效地处理缺失和不平衡的数据源；此外，它还逐步集成了来自多个数据源的数字足迹，可用于防止与人为因素相关的网络安全问题的不同任务，例如用户配置文件和风险的分类以及误用/滥用用户行为的异常检测。

实验结果表明，该框架有效地处理了分类任务中的缺失数据。此外，与关于用户行为的两个真实数据集，现有最先进解决方案相比，该系统可以有效地检测异常，用于伪装检测场景，特别是在 AUC-PR和F-措施。

在包含许多缺失元组的不平衡数据的情况下，我们的方法的出色性能也得到了证实。

未来的工作旨在通过使用 Apache Spark Streaming 的主要任务的支持和实施来扩展系统，并评估其在真实场景中的可扩展性。

此外，框架的评估可以扩展到来自社交、移动和物联网环境的数据源的情况。

参考文献：

1.CERT Australia (2012) 网络犯罪和安全调查报告。技术报告

2.Subrahmanian VS、Ovelgonne M、Dumitras T、Prakash BA (2015) 全球网络漏洞报告，第 1 版。斯普林格，纽约

3.van Zadelhoff M (2016) 最大的网络安全威胁在您的公司内部。数字文章 - 哈佛商业评论

4.Folino G, Sabatino P (2016) 基于集成的协作和分布式入侵检测系统：一项调查。J Netw Comput Appl 66(C):1–16

5.Folino G, Guarascio M, Papuzzo G (2019) 利用分形维数和分布式进化方法对具有概念漂移的数据流进行分类。应用软计算 75:284–297

基于集成的网络安全用户行为异常检测和分类框架

基于弹性堆栈（ELK）的框架

ELK提供的高性能架构

数字足迹及其在异常检测中的应用

继续阅读

针对802.11网络攻击的个人心得

vulnhub DC-4靶机实战0X01 环境部署

提高物联网可靠性的三种方法！增强物联网可靠性，包括建立更安全的网络来对抗网络威胁和基于数据的存储和计算。为智慧城市实施可

Hydra-口令破解神器

BurpSuite2021系列（七）Repeater详解

黑客攻击你的机器，往往用的源IP都不是自己的，都是伪装打扮后，来攻击你，这样，你根本找不到他的位置，也就谈不上抓了，那么

常用汇编指令（七大类）常用汇编指令

cisco交换机命令汇总

高防服务器、高防IP与高防CDN的区别

（网络安全）nmap可实现的功能以及使用方法1X01：主机扫描1X02：扫描技巧1X04：服务和版本探测1X05：脚本扫描1X06：操作系统探测

nmap –script 使用：nmap-vulners 和 vulscan出现错误 ‘/usr/bin/../share/nmap/scripts/vulscan’ found, but will

网络流量分析之流量采集到流量还原

RSA数字签名和加解密

【守网络洪闸，还大运会一片安全】截止到8月5日，国家能源集团数智科技公司所属大数据公司作为重点网络安全服务保障单位，盛会

网络空间安全中高职业院校职技能大赛——Telnet弱口令渗透测试

Bugku-WEB-web33