软件日志引发关注，数据报告收集验证，将要开启全新时代近年来，由于技术的快速发展，自动分析软件日志引起了广泛关注。目前，在

作者：梦书君 2023-07-26 20:35:00

软件日志引发关注，数据报告收集验证，将要开启全新时代

近年来，由于技术的快速发展，自动分析软件日志引起了广泛关注。目前，在软件日志异常检测领域，有许多采用深度学习的研究，报告的f1分数准确度超过0.9。然而，据报道，深度学习在软件开发行业中并没有得到广泛应用。

目前，由何等发布的Loghub数据集在软件日志异常分析领域得到广泛使用。虽然Loghub包含了来自各种系统的日志，但每个系统只提供一种类型的日志。

因此，只能针对一种模式进行异常检测的准确性评估，并未对多个数据集进行综合评估。因此，报道的各种异常检测模型的有效性可能局限于特定数据集。

因此，为了评估代表性异常检测模型在多个数据集模式下的泛化性，科学家首先使用Loghub中的超级计算机日志数据集进行交叉验证。

为此，科学家利用Chen等人开发的Deep-loglizer工具包，其中包括四个模型，即CNN，LSTM，Transformer和Auto Encoder。此外，科学家还引入了科学家提出的SPClassifier，以总共使用五个模型。

评估通用性的第二种方法涉及使用验证数据集。在Chen等人的研究中评估各种模型时，数据集被分成两个部分：训练数据集和测试数据集。

在每个epoch中，模型在测试数据上进行评估，并在该epoch中准确率最高的模型被认为是计算测试数据准确率的最佳模型。

考虑到这种方法在测试数据集上可能出现过拟合的可能性，科学家将数据集分为三个独立的数据集进行评估：训练数据集、验证数据集和测试数据集。

此外，科学家还检查了数据集中包含的日志类型和频率，以评估数据集是否适合进行通用评估。总结一下，这个实验的目标是澄清以下三个问题

通过交叉验证评估泛化性：研究由于训练数据集和测试数据集中包含的日志类型的差异而导致的准确性变化。

使用验证数据集评估泛化性：评估泛化性使用未包含在先前基准研究中的验证数据集。

调查数据集中包含的日志结构：检查常用的BGL数据集中的日志结构与软件开发中使用的日志结构的相似性。

本研究使用了Chen等人提供的Deep-loglizer工具包。该工具包允许灵活设置模型，包括修改损失函数和确定是否将语义信息从日志中融入。在这个实验中，科学家仅使用了顺序信息，因为科学家的实验设置缺乏处理语义信息所需的计算资源。

这一步将日志分成不同的组。通常使用三种类型的窗口进行日志分组，即固定窗口、滑动窗口和会话窗口。固定窗口是一种根据日志出现频率分割日志的分组技术，而滑动窗口将日志分割成窗口大小和步长。

另一方面，会话窗口利用日志标识符将具有相同执行路径的日志分组。在本研究中，使用滑动窗口大小为10，滑动步长为1进行日志分组。

现有的方法在泛化到新的未见过的日志样本方面存在局限性。为了解决这个问题，提出了Logsy作为一种新颖的异常检测方法，它利用了自注意编码器网络进行超球面分类。

Logsy通过区分来自目标系统的正常训练数据和来自其他系统的辅助日志数据集的样本来构造日志异常检测问题。

在这个实验中，科学家重点调查了深度神经网络异常检测方法在开发领域中的有限应用。现有的异常检测模型在应用窗口分组时倾向于将异常日志分类为正常。此外，在加入验证数据时，模型往往会过拟合，并从初始时期就表现出稳定的学习曲线。

此外，科学家深入研究了在本实验中使用的BGL数据集的结构，并观察到某些日志出现连续，特定的序列模式占据了数据集的大部分。科学家还对在本实验中使用的BGL数据集的结构进行了更深入的研究。

科学家的研究发现，BGL数据集中出现了特定的日志，其中某些序列模式包含了大部分日志。需要注意的是，在应用程序开发中，日志呈现更高的复杂性，并包含各种不同的序列模式。因此，现有的代表性模型在应用程序开发领域面临挑战。

在异常检测领域，通常关注重复出现的日志，比如超级计算机日志或网络系统日志，但科学家的目标是针对与大规模软件开发相关的日志进行异常检测。因此，科学家计划创建多样化的数据集，以反映该开发领域的特点，并探索在这种情况下使用多个异常检测系统的可行性。

继续阅读