东风商用车有限公司起源于 1969年成立的中国第二汽车制造厂,继承了东风品牌商用车事业的主体业务。东风商用车用信赖、专业、全球科技深耕制造工艺,不断开拓市场,赢得客户认可。 东风商用车公司制订了涵盖了商品规划、技术研发、国内外营销、动力总成等在内的十大措施, 正逐步建立覆盖全球的销售服务网络 ,致力于成为 中国领先的商用车品牌。
战略规划和业务发展离不开稳健的 IT架构支撑,为了应对内部办公、进销存、供应商管理、业务直销等管理和业务发展需要, 东风商用车信息化 通过短短几年的建设,已经大量 使用了 较为先进的 虚拟化、数据库 PaaS 、分布式存储等架构和技术 ,基本完成对现有业务的支撑。但随着市场需求、利好政策、公司战略发展要求,以及新兴的车联网业务,对东风商用车的信息化建设提出了更高的要求,同时东风商用车也在考虑使用云化思路和经验应对新兴业务需求,解决传统 IT管理架构中存在的IT服务交付和治理过程中的诸多问题。
目前东风商用车数据中心中,老业务系统大多使用物理机,现有新业务全部使用 VMware虚拟化以及Docker平台,数据库业务通过Oracle RAC 双机方式运行;数据存储以传统存储为主,已经开始使用新兴的分布式存储。网络方面已经大规模使用 SDN软硬件方案。IT整体技术架构目前正在向易扩展、分布式、可弹性伸缩的云计算架构转变,然而在IT服务供给和IT运营管理模式上仍沿袭传统的“竖井状”+“条块式”模式,被动的响应业务需求仍为IT部门主要的服务形态。
Ø 缺乏有效的运维流程和标准,资源申请和管理不规范
东风商用车之前为了解决该问题,建立了一套 ITSM系统,但由于开销庞大,落地复杂,目前并未真正使用起来。日常的运维管理、任务下发、变更、资源申请等以口头沟通和邮件方式为主,资源申请缺乏统一的规范和标准,完全通过填写Excel表单形式,沟通成本极高。而且运行部门和架构部门仍以被动响应业务需求为主要工作方式,在面对不合理、不规范、不同的资源申请时,缺乏标准化,自动化的应对方案。直接造成了后续数据中心内部 设备杂、版本多、管理 混乱等诸多问题 。
Ø 管理层 缺乏 数据中心 全局视角 ,无实时资源使用监控和管理手段
东风商用车现有 数据中心 针对 整体运行状况(包括:设备运行状况,系统运行状况,软件运行状况),整体资源使用状况(包括:设备使用率,系统使用率,存储使用率,服务器使用率,存储使用率),整体资源使用管理状况(包括:部门或分公司对设备或资源具体使用情况,项目组对设备或资源的使用状况)等 IT信息化管理中的关键信息缺乏有效管理手段。 现有的报表和管理方式存在更新不及时,除报表维护工作大幅增加以外,对 当前数据中心资源 使用 情况更无法实现整体管控。
Ø 架构部门和运行部门对业务需求变化的响应慢,无法支撑快速的业务需求变化
从需求方提出资源需求,架构部门和运行部门需要经过讨论、需求确认、产品选型,采购,上架,操作系统安装、应用部署、参数配置等工作,相关工作不但需要多岗位的协作,且存在大量人工或手动的重复工作,服务交付周期长且资源交付效率低,甚至出现项目的资源申请周期长达六个月的极端情况。
现有数据中心架构依赖传统方案,无法做到水平横向的扩展,面对业务增长时对 IT资源提出的扩容需求响应滞后,业务部门不能自主按需的根据业务变化对资源进行快速扩容和缩容。 同时由于缺乏全局资源使用情况统计,无法对整体业务需求变化对 IT资源要求的变化进行预判,也是造成IT服务不能及时满足业务变化的重要原因。
Ø 东风商用车运行团队普遍 缺乏自动化能力 ,造成运维工作复杂,资源管理混乱
东风商用车目前资源创建、变更、删除、巡检、软件安装等常规的运维操作均通过手工方式完成,直接导致资源的交付和维护过程周期很长,业务部门体验很差。而且由于人员能力参差不齐,不同的人员在处理问题时方法不同,导致生成的资源不标准,不统一。同时靠手工方式操作导致员工工作压力较大,且操作过程中出错的风险也比较大。
另一方面,东风商用车内部运维人员是根据项目进行工作职责范围划分,运维人员各自独立负责所属项目的物理设备。仅网络、存储、虚拟化由专人维护,缺乏统一运维方式。
在不改变现有数据中心架构的基础上,建立统一 IT服务运营中枢,实现对异构基础架构的统一管理和交付(包括物理机、虚拟机、数据库等),IT资源自助式生命周期管理,标准化供给。转变IT部门传统的“竖井状”+“条块式”运营管理模式,逐步按标准化,可视化,自动化方式给各业务部门提供个性化的IT服务,同时建立逐步IT部门内部的自动化运维能力。
Ø 搭建东风商用车 IT服务运营中枢,完成基础架构资源纳管
将东风商用车数据中心内部 VMware虚拟化,X86物理机, 进行统一纳管和资源自动化交付。同时纳管部分存储设备和网络设备,实现整体 IT基础架构资源的统一云化管理,为实现从传统被动式的IT资源交付模式向主动式的IT云化服务模式的转型打下基础。
目前已经纳管的基础架构设备:
• 物理机对接及管理,近 200台。
• 虚拟化平台对接及管理,近 800台虚拟机。
• 存储设备对接及管理, 2台NetApp NAs存储。
• 网络设备对接及管理, 40台网络交换机。
• 数据库平台对接及管理, 3套平台。
Ø 建立以服务目录 +自服务申请+流程审批+自动化交付方式为主的资源申请及交付方式
通过元数据定义方式提供虚拟机申请、虚拟机变更、数据库、存储等服务目录,屏蔽之前 Excel所带来的管理弊端。业务用户申请资源时,通过平台统一的申请(填写预定义好的线上表单)、审批(流程审批功能可完整替代旧ITSM平台的功能,同时增强了统计分析相关的功能。)、自动化交付流程,规范化资源申请,加快资源交付的速度。
实现服务实例的生命周期管理,进一步提高资源提供效率,减少运维部门工作压力,降低操作风险,加强资源管理,提升 IT人员价值 。
Ø 建立全局运营视角,账单、计费、统计多种手段满足可视化运营
通过资源运营报表和容量视图,计费账单,多维度洞察 IT资源使用情况; IT资源调用实现标准化、智能化管理; 通过 资源报表和容量视图,容量趋势分析 帮助 管理者 有效监控 IT资源的使用状况和容量 变化 趋势,保证 IT资源使用的合理性和合规性 ;通过 IT服务 流程化管理机制,制定 IT 服务 供给 规范、资源申请规范 以 实现 IT基础 架构的标准供给模式 。
实现以业务为服务对象的敏捷资源供给,从基础架构层面实现 ITaas (IT as a Service),为业务 需求快速变化时提供有效、敏捷的 IT服务支撑 。
Ø 对运维团队进行自动化运维 +安全运维平台的能力建设
通过平台自带的:自动化运维模块、堡垒机模块、应用编排模块,为东风商用车建立如下自动化能力:
l 虚拟机 资源 、网络资源、存储资源 自动化交付
l 应用自动化部署 +定制化配置,可以自动化部署各应用中间件,减少管理员的手动部署操作。
l 物理机装机自动化
l 针对虚拟机、网络设备实现 批量脚本下发和命令执行
l 堡垒机集成,实现 WEB Terminal 统一管理( vnc 、 telnet 、 ssh , rdp ),授权管理,会话记录等。
Ø 实现异构基础资源统一纳管,建立基础架构资源全局视角,为基础架构资源占用状况提供数据支撑和分析依据,有效减少 “僵尸机”和“大马拉小车”的情况, 提高 15 %的资源复用率
Ø 建立了以服务目录 +自服务为主的资源申请方式,完成了“虚拟机申请、虚拟机变更、数据库申请、存储申请”四大申请+审批+交付流程;建立了 资源供给标准,整体交付过程规范化,统一化 。
Ø 实现异构基础资源统一纳管, 物理机对接及管理近 200台,虚拟化平台对接及管理近800台虚拟机,存储设备对接及管理2台NetApp NAs存储,网络设备对接及管理40台网络交换机,数据库平台对接及管理3套平台
Ø 资源从申请到审批通过的时间,由原来的按 “周”,提升到“小时”甚至 “分钟”级别 。资源交付时间由按 “天”,提升到 “分钟”级别 。
Ø 建立自动化引擎,提高了整个 IT的敏捷度以实现促进东风商用车的业务敏捷。自动化包含自动化批量部署,全生命周期管理,自动化回收资源,资源调度策略管理和应用自动化部署。 提升 60%的运维效率。
Ø 运维部门的系统管理员、存储管理员、网络管理员的常规巡检工作变为定时任务自动执行, 时间节约 90% 。