机器数据,所有的设备,操作系统、硬件服务器、机房的感应器,包括你的应用,你的服务器,你的中间件所有产生的数据就是机器数据。
机器数据可以进行数据故障的分析,可以看到它的性能数据,同时机器数据还有安全审计、业务分析的能力。
安全审计主要是防止安全侵入尤其是遇到从外部的侵入时,这个机器数据是没有用的
业务分析主要是从日志里面去把这些业务的一些关键信息,把它抠出来,一般都是放在数据库里面去。在日志里面,把各个系统关联起来之后,这部分其实是很重要的。
日志,不是把它单纯当做文件而是要把它当作一个消息来看。有价值的日志理解方式,应该是一条一条的消息。
因为未来,就算是不说云,单是应用系统是要跟我们的底层的基础设施要接上的,那么未来我们的日志的看法就不会是文件,而是消息。
日志拥有的生命周期其实是很奇怪的,先记录、传输、分析,然后再存储,然后再删除,实际上是这样一个过程,其实很多公司也有这样一个过程,随着日志的不断增加,由原来的周期慢慢演变为记录、传输、存储、删除,但是却没有了分析。
同时日志的保存的期限是有严格的要求,把那些日志捞回来,再看里面的内容,其实是很少有这样的一个回放的过程,而且也很痛苦。大量的日志内容往往很少能过全部阅览完毕。甚至到最后演变成了记录、删除这样一个没有任何作用的习惯性过程。
想要有效利用日志进行审计及分析数据,三无主义是最佳的选择,没有界面,没有归档,没有批量,就是不能批量去捞日志,没有归档,也没有一个直观的日志的可视化的界面去看,但是在那样的一个情况下,其实是分析日志数据最理想的状态。
如何进行日志的管理,建议通过Nginx去做归档,定期的把日志备份到NAS,再从NAS到磁带。有意义的日志的结构化是很有限的,结构化可以体现出日志告警,准确找出分析数据的异常。
日志进行结构化可以使日志分析的时候,都是做全功能检索,列一条信息做全功能检索,没有什么索引,没有什么统计,这样便于数据的分析,不会使得日志数据分析痛苦不堪。
日志云后端,后端可以用开源解决所有的问题,这一系统的开发运维是很容易搞定,直接依照于开源组建的方式去它部署、安装上去,但只是按照文档,去安装,去部署,去配置,但是我们没有去做创造。
做一个企业级的日志查询的综合页面,基本上后台其实是可以和开源的所有组建进行吻合的, 日志查询的综合页面它不仅是我们有一般的,就是检索的柱状图、日期,还有一些趋势分析,同时也会具备远程去控制你的Heka,可视化的界面用过一段时间之后,有一些查询的规则,它是没有办法通过这个界面直接搞定的,只能通过结构化进行关联分析。
CEP是什么?日志的整个体系结构,完成后就基本上很丰满了,能够满足我们现在互联网金融的一个要求。整个CEP的关键字就是联系不断的,实时处理的数据,也就是之前说的日志,就是一条一条的事件。它的基础检索的数据量是很大的,你要存很多数据,你有很多数据来源,所以这个基础数据很大。比如说,最后面要去做一个判断,就是说他判断完这些基础数据之后,要去做一个事情,要通过一个触发器把它触发,这个可能也是要很多计算资源的。