SANS网络安全活动标尺模型将网络安全建设投入及工作方向划分为五个阶段:架构、被动、主动、情报和震慑。
对于大多数传统企业(区别于安全企业和互联网企业)而言,经过一段时间的努力,都可以完成从无到有(架构)、从“救火”(被动)到正向建设(主动)的过程。处于这一阶段的企业,一般都具有了以下能力:
基本攻防能力:了解常见网络攻防技术,能够开展渗透测试。
威胁防护能力:对于常见网络攻击威胁,能够采用多种手段进行防护和监测,形成纵深架构。收集并运用威胁情报进行溯源分析和失陷检测。
安全运营能力:对安全事件完成闭环处置,形成有效的风险控制机制。
企业安全在解决基本生存问题以后,主要矛盾已经从缺少工具变成了如何高效、均衡、可持续地发展。在这一阶段,我们认为企业安全具备相对成熟的单点攻防能力,但是整体安全能力有所欠缺。直观地说,安全团队能够解决大部分安全问题,但对于新安全威胁、新安全技术的追踪和研究工作投入不足;当数据中心业务规模在有限范围内扩大时,安全团队勉强可以通过增加人手来维持安全防护强度,但这种简单粗暴的方式绝对跟不上信息化工作实际发展速度。主要瓶颈在于:
(一) 安全资源调度能力不足
1、 安全资源部署
随着虚拟化和云计算技术的迅猛发展,数据中心的计算资源已经具有很好的灵活性和扩展性。对于安全来说,需要防护和管理的端点,每天甚至每时每刻都在动态变化。基于Agent的端点安全防护手段,需要赶上业务变化的速度,快速有效部署,对端点保持有效管理,及时跟进Agent上线、下线、策略和日志状态。
另外,随着业务的不断发展,网络结构也日趋复杂。一方面与多方业务有交互需求,存在多个边界;另一方面内部各个区域间需要保持监测和防护力度的一致性。基于链路的流量防护,需要对多业务流和数据流提供防护能力,具有较大的流量和较复杂的接入需求。
2、 安全策略管理
在安全运营的过程中,基于威胁情报和失陷检测情况,安全策略也需要不断调整。当安全资源规模较大时,需要保障策略下发的准确性和及时性,对策略进行统一管理。
(二) 安全分析能力不足
在单点攻防场景下,安全分析主要依赖单一安全设备自身的管理平台。为了实现对整体安全态势的分析,企业建设态势感知平台,对安全日志和威胁情报进行统一采集、统一分析、统一展现。当全部日志汇总起来,对平台的数据处理能力提出挑战,需要具备大数据处理和存储能力。
(三) 安全定位和价值问题
这是一个老生常谈的话题。企业安全建设发展到当前阶段,尽管具备了相对成熟的方法论和防护体系,但从外界看来,依然处于“自嗨”的状态。其他单位和部门能够理解和接受安全部门通报的风险并愿意配合整改,但是对于纵深防御、安全运营、甚至漏洞挖掘等系统性的安全工作,就不容易理解了。毕竟安全是一个相对冷门的技术方向。推进安全工作,不仅仅要通过自上而下的企业战略和组织架构来强调重要性,也需要自下而上的安全业务和安全能力输出来提升认同感,尤其是技术输出。
以上三个问题中,资源部署能力不足根源在于未对安全能力进行底层池化;安全分析能力不足根源在于未对各安全数据进行统一处理;安全定位则不必说,本职的事情都做不好,何谈价值。
根据上述差距分析,可以初步梳理安全技术架构需求:
(一) 总体需求
1、 采用通用技术解决方案。
2、 满足大数据处理、高并发、高可用需求。
3、 满足分布式部署需求。
(二) 基于Agent的端点管理
1、 具备超过100,000点Agent的管理能力。
2、 在Agent并发活动场景下,具备对每个Agent上线、下线、策略下发和日志上收的全生命周期管理能力。
(三) 基于链路的流量防护
1、 具备单条链路万兆网络处理能力。
2、 具备业务高并发访问场景下处理能力。
3、 具备多条链路接入处理能力。
(四) 安全资源管理调度
1、 具备对数据中心内部全部安全资源的管理覆盖。
2、 具备分钟级策略下发执行能力。
(五) 安全日志分析
1、 具备每秒100,000条以上日志实时处理能力。
2、 具备海量日志检索和存储能力。
3、 具备分析结果展现能力。
4、 具备与安全资源管理调度联动能力。
可以看出,安全对于处理能力的需求完全不亚于业务。这也符合安全工作的初衷:既然安全要保障业务,就不能成为性能瓶颈,至少要具备同等处理能力。从实际情况来看,由于安全要保障整个数据中心全部业务,其性能往往高于单一业务系统。因此,安全实际上具备向业务进行技术输出的基础。
基于上述论证,我们对企业网络安全技术架构进行拓展,将安全建设的工作重心由工具集积累转向运营平台和底层架构搭建,实现安全资源标准化、池化。
(一) 工具集
这一层实际上是对已有安全手段的梳理和整合。各类安全系统,无论是商业采购的“盒子”,还是基于开源或者自研的软件,都具有明确的工具属性:一是部署在“一线”,发挥最直接的安全防护效果;二是具有独立性,功能特点明确;三是具有可替代性,同类产品原则上可以“即插即用”;四是要接受统一管理。
这些安全手段整合起来,形成了基本的纵深防御体系。我们形容为“全家桶套餐”或者“大拌菜计划”。安全措施嵌入信息化建设的各个阶段,形成标准化防护措施。也就是说,只要上线新的端点,默认安装全套基于Agent的端点防护手段;只要是存在边界、业务流或者数据流等链路,就牵引到流量清洗资源池,进行统一防护和监测。另外,对于在线业务、服务、系统和设备,接入各类网关实现统一访问控制;通过主动探测实现脆弱性检测和资产管理,引入威胁情报。
基于此,安全形成了标准化业务,可以有效避免防护力度参差不齐、安全产品更新换代困难,有利于横向扩展、规模化对外输出安全能力。
(二) 运营平台
建设运营平台,主要实现对安全资源的管理、调度,以及进行分析和展现以对接运营工作。通过数据分析技术,实现安全监控、响应、预警能力,对抗外部威胁,保障业务安全稳定运行。
1、 接口驱动
对外提供安全资源统一接口,主要包括端点Agent下发、流量防护和监测接入、网关接入、主动探测扫描等资源的调用和释放,使业务能够自动化使用池化的安全资源。
2、 集群管理
对全部安全资源进行统一管理,进行策略下发和更新,收集日志并进行实时处理。
3、 业务总线
对于收集的海量日志,建立消息队列和缓存,基于大数据技术进行实时分析处理、存储和检索。
4、 统一展现
积累安全分析案例,形成安全场景和分析规则,对数据处理结果进行统一展现。根据安全运营架构,建立响应处置流程,控制安全风险。
(三) 底层架构
1、 安全技术
尽管搭建了较大规模的安全技术架构提升安全防护能力,攻防技术还是分析和防护的重要基础和出发点,风险控制是贯穿整个工作的主线和目标。
2、 高可用
安全技术架构要满足高可用需求。一方面,性能需求决定了管理平台需要进行集群化部署,需要有稳定可靠的计算基础设施保障。另一方面,安全保障业务这一工作目标决定了安全资源需要在物理上贴近业务系统部署。除了数据中心自身为实现高可用而采取的多中心部署外,即使在同一数据中心内部,安全资源也需要在多个物理位置部署。因此安全技术架构需要考虑分布式部署技术。
3、 高并发
对于海量流量和日志,单一安全工具无法满足性能需求,需要集群化部署。通过负载均衡技术,实现安全资源的业务压力调度。
4、 大数据
对于海量日志,具备实时处理、快速检索和存储能力。
(四) 部署示例
1、 采用LVS/Nginx为集群化部署的工具进行负载均衡。
2、 采用Kubernetes为安全平台提供基础计算环境。
3、 采用ZooKeeper对安全工具策略进行统一管理。
4、 采用FileBeat采集并传输日志。
5、 采用Kafka作为消息队列接收日志。
6、 采用Flink对日志进行实时处理。
7、 采用Hive作为大数据存储。
8、 采用Logstash接收日志实时处理结果。
9、 采用ElasticSearch存储实时处理结果,并提供全文检索。
10、采用Kibana对ElasticSearch中的数据进行展现。
11、采用Redis作为缓存数据库,MySql作为主要存储。
12、采用Jira进行工单管理,对日志分析结果进行后续处置,与ZooKeeper对接,进行策略调整和下发。
13、本文主要对于企业安全技术架构转型进行讨论,故不进行工具层面的具体选型。
(一) 数据处理流程
安全事件处理按照预警、保护、检测、响应、恢复、反击(WPDRRC)等流程形成闭环。通过数据处理流程,落地安全事件生命周期。
1、 基础数据分类
工具层面采集的数据主要可以归为以下几类:
情报类:主要是通过各种渠道收集的外部威胁情报。
溯源取证类:链路流量DPI(深度包解析)工具和EDR(端点检测响应)工具产生的大量用于溯源和取证的日志,以及基础设施运行日志。
告警类:各类安全工具检测到的威胁告警情况。
监测类:各类安全工具业务系统进行监控和扫描的情况。
2、 数据处理模块
处理层面主要包括以下几个模块:
威胁情报库:筛选可信度、适用度高的情报类数据建立成威胁情报库,形成预警信息,以供比对分析。
关联分析引擎:基于告警类数据,结合监测类数据,判断威胁告警的准确性、严重性和紧迫性,以供响应处置。其中准确度高的威胁告警作为内部情报数据,输入威胁情报库。
溯源取证模块:将威胁情报库信息与溯源取证类数据进行比对,判断失陷情况,确定影响范围和严重程度,以供响应处置。
响应处置平台:对于需要处置的情况,按优先级形成工单,以供调整工具层面策略。
3、 数据流转过程
1) 情报类数据输入威胁情报库。
2) 溯源取证类数据输入日志接收模块,进一步输入全文检索引擎。
3) 新情报类数据与溯源取证类数据比对,进行失陷检测;检测结果输入关联分析引擎。
4) 新溯源取证类数据与存量威胁情报库比对,进行失陷检测;检测结果输入关联分析引擎。
5) 告警类、监测类数据输入关联分析引擎,分析实质性高风险事件。
6) 关联分析引擎综合评估事件的准确性、严重性和紧迫性,形成优先级,并输入响应处置平台,执行预案防止事态恶化,同时输入溯源取证模块。
7) 溯源取证模块通过全文检索引擎,对事件进行详细分析,判断影响范围和事态发展情况;制定完善解决方案并输入响应处置平台根除风险;形成内部威胁情报输入威胁情报平台。
8) 响应处置平台形成告警日志和安全工具策略,通过工单系统下发执行。
(二) 安全场景梳理
基于安全运营工作经验,对威胁类型进行归类,形成安全场景,总结分析方法。
1、 场景分类分级
攻击链模型将网络攻击分为7个阶段。其中越是后期阶段,严重性程度越高;同时,由于这些阶段的攻击动作需要基于前期攻击的“成果”,且基本处于数据中心内部,也就更容易暴露。反而是前期踩点、投递等阶段,大多从外部发起,攻击量大,攻击结果不易直接确认,容易出现误报、漏报。
因此,对场景进行分级,首要在于梳理失陷场景。基于信息安全防护的核心目标:保密性、完整性和可用性,我们可以相应设计失陷场景的主要分类:拒绝服务、系统受控和数据泄露。然后根据导致这些结果的不同原因划分细项,并设计针对性的分析方法。
2、 解决方案分段
如前文“数据流转过程”所述,同一事件在处置过程中至少要进行2次策略下发执行。一方面,不同策略在执行层面难度和耗时不同,比如封禁地址和端口一般可以快速完成,但是升级补丁和防病毒策略就需要时间,这一点在数据中心规模较大的情况下尤其明显。另一方面,溯源取证也需要时间,根除方案无法第一时间形成。在应急响应如“救火”的事件发展初期,尽快控制事态、防止恶化是首要目标,各类处置措施需要根据时间形成梯队,至少要形成“两段式”解决方案。其中,临时解决方案需要能够立即执行并快速见效。在后续方案不断优化的过程中,临时解决方案可以进一步拆分,形成分钟级、小时级、自然日级等多段解决方案。
(一) “人肉”安全运营向自动化、智能化演进
信息化建设的飞速发展和严峻的网络安全态势决定了安全运营工作的体量和难度不断增长。通过自动化、智能化技术手段,提高人力工作的效率,是必然趋势。一方面,提升了安全团队的业务承载能力。在外部网络安全专业人才储备和内部安全团队人力预算均有限的情况下,安全团队基于专业化的安全运营技术架构,仍然可以为业务规模不断增长的数据中心提供有效的网络安全保障。另一方面,有利于提升安全工作的专业性。安全工作的核心竞争力在于对安全场景的知识积累和事件处置的经验积累。通过专业化的安全运营技术架构,将有经验的安全人员从繁杂的信息收集、处理工作中解放出来,投入到知识库沉淀、新技术追踪和安全治理框架研究的工作中,可以有效提升安全团队的专业能力。
(二) 提升网络安全对企业信息化工作的价值贡献
网络安全工作作为传统意义上的“成本中心”,一般不能直接盈利;要体现其价值,需要有一种衡量效益的方法。在企业安全运营技术架构的建设和运行过程中,应用了大数据、云计算等先进技术,实现了高并发、高可用、分布式等技术目标,而且具有切实的应用场景。将这些技术进行内部横向输出,是网络安全工作效益的新增长点。
在企业安全运营技术架构的建设过程中,安全团队实现了工作重心从专业安全技术向通用信息技术的转型,极大地拓展了安全技术工作边界,为专业技术积累、专业人才培养提供了广阔的空间。这一过程有利于推动安全技术与外部沟通交流和共同发展,有利于提升安全工作的接受和认可程度。
(三) 推动被动安全向主动安全转型
在网络安全形势日益严峻的大背景下,威胁不断升级,传统过于依赖防护工具的安全方法,已不足以应对复杂、隐蔽、高危的攻击手段。避免核心业务失陷甚至数据中心整体沦陷,是安全工作的底线,正在面临越来越大的压力。通过落地企业安全运行架构,推动被动安全向主动安全转型,可以提升整体安全防护能力,尤其是高阶威胁应对能力和大规模攻击防护能力,从而进一步体现安全工作核心价值、能力和效益。
(四) 促进安全与业务的融合和支撑
一是安全手段嵌入信息化建设生命周期各阶段,实现安全承载业务。二是提升安全风险的发现和控制能力,进一步保障业务安全稳定运行。三是建立强大的安全分析能力,发挥安全数据价值,有助于制定科学合理的风险控制措施,加强安全和业务的协同合作,持续高效开展安全运营工作。
感谢我的领导和同事吕毅、欧阳昕对本文的帮助和支持!
感谢华泰证券张嵩先生对本文的指导和宝贵建议!
作者简介:董祎铖 资深网络安全工程师,就职于中国人民银行金融信息中心信息安全部,CISP,银行科技发展奖获得者。负责开展互联网安全防护体系建设和安全运营工作,专注于渗透测试、WEB安全、PKI/CA领域。
声明:本文来自仙人掌情报站,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如需转载,请联系原作者获取授权。