转载

[PDF]基于云计算的取证数据集聚类方法的分析与实现

基于云计算的取证数据集聚类方法的分析与实现

吉林大学  张丁文

本文针对的是DDoS攻击产生的网络流量数据集的聚类分析工作,在文章前几部分概述了分布式拒绝服务攻原理,分类,实验工具以及相关的检测方法。概括数据挖掘算法基本理论,说明了聚类分析的流程和几种常见方法。K-Means算法作为一种数据挖掘中常用的聚类算法,在大数据集处理上具有较好的可伸缩、高效性和良好的扩张性,但是它存在对聚类先验知识有要求的缺点。因此本文给出了一个分布式的优化K-means聚类算法来解决海量数据的证据挖掘工作。最后借助于比较流行的云平台Hadoop实现了一个基于云计算技术的网络流量取证分析的模拟实验系统。利用了相对经典的KDD CUP99数据集验证了其有效性和可行性。本文的实验平台使用的算法是K-means,对于K-means算法的输入数据进行了粗聚类的预处理,结果得到了很大改善。但是粗聚类中相关参数的设定问题依然没有好的解决方法。此外本文提出的实验还需要更大规模的数据集和真实情况下的大规模集群来验证。另一方面,云取证是一个两个学科交叉的学科。整个过程最不可忽视的部分是法律因素。如何保证这些数据在司法机关人员面前的可用性和可信性,还需要专家学者的不断努力。

基于云计算的取证数据集聚类方法的分析与实现

正文到此结束
Loading...