在大数据和数据科学的新时代,对于企业而言,具有与业务流程一致的集中式数据体系结构至关重要,该体系结构随业务增长而扩展,并随技术进步而发展。 成功的数据架构可以使数据的各个方面清晰明了,从而使数据科学家能够高效地处理可信赖的数据并解决复杂的业务问题。 它还使组织做好准备,以利用新兴技术迅速利用新的商机,并通过管理整个企业中的复杂数据和信息交付来提高运营效率。
与信息体系结构,系统体系结构和软件体系结构相比,数据体系结构相对较新。 数据架构师的角色也是模糊的,已经落在了高级业务分析师,ETL开发人员和数据科学家的肩膀上。 尽管如此,我将使用Data Architect来指代那些为组织设计数据架构的数据管理专业人员。
在谈论建筑时,我们经常会想到与建筑的类比。 传统的建筑设计师计划,设计和审查建筑物的建造。 设计过程包括与客户合作以充分收集需求,了解场所的法律和环境限制,并与工程师,测量师和其他专家合作以确保设计是现实的并且在预算之内。 这项工作的复杂性确实与数据架构师的角色非常相似。 但是,两个架构师角色之间存在一些基本差异:
考虑到所有这些差异,数据架构师仍然可以向建筑架构师学习,尤其是采用自上而下的方法来改进数据架构设计。 在许多组织中,缺乏系统的,集中的,端到端的数据体系结构设计。 以下列出了一些主要原因:
由于这些不足,我们经常看到一家数据系统脱节且团队和部门之间存在缺口的公司。 差异导致系统性能低下,需要进行大量交接,如果生产数据出现问题,则需要很长时间进行故障排除,缺乏在整个系统上找到正确解决方案的责任感,并且缺乏评估产品影响的能力。 改变。 最后,脱节的系统在迁移或重新设计到下一代平台时可能会花费大量精力进行分析和研究。
在现代IT中,业务流程由数据实体,数据流和应用于数据的业务规则支持和驱动。 因此,数据架构师需要具有深入的业务知识,包括财务,市场营销,产品以及业务流程(例如健康,保险,制造商和零售商)的特定于行业的专业知识。 然后,他或她可以通过设计代表每个业务域的数据实体和分类法以及业务流程下的数据流,来在企业级别正确构建数据蓝图。 在此概念阶段尤其需要考虑和计划以下领域:
通过考虑使用哪种数据库或数据格式,这种设计级别有时称为数据建模。 它将业务需求连接到基础技术平台和系统。 但是,鉴于数据建模者的角色,大多数组织仅在特定数据库或系统中设计了数据建模。 通过考虑适用于每个数据库或系统的标准以及这些数据系统之间的数据流,应采用集成方法开发成功的数据体系结构。 特别是,以下五个领域需要以协同方式进行设计:
数据实体和元素的命名约定应一致地应用于每个数据库。 同样,如果相同的数据必须驻留在多个数据库中,则应强制执行数据源及其引用之间的完整性。 最终,这些数据元素应属于数据体系结构中概念设计中的数据实体,然后可以根据业务需求协同准确地对其进行更新或修改。
直到生产的每个后期,才经常考虑或建立数据归档和保留策略,这会导致资源浪费,不同数据库之间的数据状态不一致以及数据查询和更新的性能不佳。 为了加强数据完整性,数据架构师应基于操作标准在数据体系结构中定义数据归档和保留策略。
隐私和安全性成为逻辑数据库设计的重要方面。 尽管概念设计已定义了哪个数据组件是敏感信息,但逻辑设计应该具有受限访问权限,受限数据复制,特定数据类型和安全数据流的数据库中保护机密信息,以保护信息。
数据复制是要考虑三个目标的关键方面:1)高可用性; 2)避免通过网络传输数据的性能; 3)去耦以最小化下游影响。 但是,过多的数据复制会导致混乱,数据质量差和性能差。 任何数据复制都应由数据架构师检查,并应用原则和纪律。
在此级别上,应明确定义数据在不同数据库系统和应用程序之间的流动方式。 同样,此流程与业务流程和数据架构师概念级别中说明的流程一致。 此外,应在逻辑设计的集成视图中考虑数据摄取的频率,流水线中的数据转换以及针对输出数据的数据访问模式。 例如,如果上游数据源是实时的,而下游系统主要用于具有重索引的聚合信息的数据访问(例如,对于频繁的更新和插入来说很昂贵),则需要在两者之间设计数据管道。 优化性能。
由于数据体系结构反映并支持业务流程和流程,因此只要业务流程发生更改,数据架构就可能发生更改。 随着基础数据库系统的更改,数据体系结构也需要进行调整。 因此,数据体系结构不是静态的,而是需要进行连续的管理,增强和审计。 因此,应该采用数据治理来确保在启动每个新项目时正确设计和实现企业数据体系结构。
在成功的数据体系结构中,基于业务流程的概念设计是最关键的组成部分,其次是强调所有数据库和数据管道之间的一致性,完整性和效率的逻辑设计。建立数据体系结构后,组织可以查看哪些数据驻留在何处,并确保数据得到保护,有效存储和正确处理。同样,当一个数据库或一个组件发生更改时,数据体系结构可以使组织快速评估影响并指导所有相关团队进行设计和实现。最后,数据体系结构是企业系统的实时文档,可以保证它是最新的,并提供清晰的端到端图片。总之,反映端到端业务流程和运营的整体数据架构对于公司在经历重大变化(例如收购,数字转换或迁移到下一代平台)的同时快速有效地发展至关重要。