作者:张家文
来源:《中国金融电脑》 2016年第11期
中国农业银行数据中心 张家文
近年来,以移动互联网、云计算、大数据为代表的
现代互联网技术,对人类生产生活带来巨大改变。
对于商业银行来说,基于互联网的金融业务蓬勃发
展,在给传统银行业务带来了新的发展机遇的同时,
也带来巨大压力和挑战。其中,信息系统安全生产
方面面临的冲击最大,安全风险挑战尤为突出。作
为商业银行“跳动的心脏”的数据中心,如何准确
识别互联网时代的生产交易特征变化,合理调整运
维保障策略,保障安全生产平稳,是摆在各银行面
前的重要课题。
目前,国内银行为应对互联网冲击,普遍提出了全
面建设信息化银行的目标。然而,在具体措施上,主要
集中在互联网金融业务创新和技术架构转变上,对于如
何提升运维保障能力的研究,各行还处于探索阶段。本
文结合农业银行数据中心运维管理实践,系统阐述了应
对互联网金融挑战的运维保障关键之策。
一、互联网时代的运维保障新形势
1. 现代互联网技术的影响
以移动互联网、大数据和云计算为代表的现代互联
网技术对现代生产生活带来的影响可以概括为三个方
面:云计算让技术边界逐步消失,让计算“民主化”;
大数据带来新的技术智慧,数据成为生产资源;移动互
联改变人们的连接方式,让一切在线。互联网的文化基
因,“人人参与”、“端到端透明”的设计原则,其天
然具备的全球化、开放、平等、透明等特性,正逐渐改
变工业时代以来建立的商业运作模式,建立起信息时代
的商业模式。
2. 商业银行生产运行工作面临的新挑战
我国商业银行普遍经历了从“网点时代”向“网银
时代”的转变,如今互联网金融的发展唤醒了人们全方
位的金融需求,商业银行正在步入“移动互联时代”(如
图1 所示)。银行业内外部环境发生深刻变化,生产交
易特征明显改变,客户、市场和监管要求愈加严格,数
据中心生产运行服务面临前所未有的压力和挑战。
一是交易特征显著变化。基于互联网的电子渠道业
务快速发展对银行提出7×24 小时不间断的服务需求,
金融服务向全球化、全天候发展,给IT 生产运行带来
巨大压力。在新型商业模式推升下,银行业务特征发生
急剧变化,小额高频业务占据主流,交易量“潮涨潮落”
日益频繁。电商促销、电子红包等新业务的发展、移动
支付等新渠道的兴起,造成传统的低频交易时段与区域
频现爆发式交易增长,对数据中心并发处理能力带来巨
大挑战。
二是交易形态多样化。随着银行产品的多样化,信
息系统的交易形态呈现联机实时交易、周期性批处理交
易、即时性批处理交易等多样化,增大了生产运行作业
的复杂性。一方面,产品投产、生产变更的数量连年增长,
时间要求紧、技术复杂的重点项目不断增加。另一方面,
为保障国家和社会重大活动、重要时段的服务水平,特
保要求越来越高。银行科技部门能够比较从容地对信息
系统进行维护、变更、升级的可用时间窗口很少,给生
产运行调度排程管理带来很大难度。
三是数据信息安全面临空前考验。近年来,全球重
大网络安全事件持续高发,各国银行网络均遭遇过攻击
致使服务中断与信息泄露,包括病毒传播、黑客攻击、
信息窃密等,已成为银行数据中心的重要安全威胁。商
业银行必须不断完善金融信息安全保密机制和应急处理
机制,提升数据中心信息系统的检测、预警、防范、应
急处理和自我恢复能力,最大限度降低数据安全风险,
保护客户数据安全,保障业务持续稳定运行。
二、互联网时代的运维保障策略
农业银行作为城乡一体化的国际金融企业,又肩负着服务“三农”的社会和历史使命,在应对互联网时代
激烈的市场竞争过程中,从全行战略高度审视,将信息
系统安全稳定运行作为信息科技工作最重要的基础,主
动适应交易新特征和运维新形势,建立了以“两个第一”,
即“安全生产第一”和“第一时间恢复业务服务”为核
心的一整套运维保障机制,从技术和管理上双重发力,
不断夯实安全生产基础。
1. 强化规范化管理,提升信息安全管控水平
近年来,全行从制度、流程、规范三个层面,狠抓
运维基础管理工作。先后引入ISO20000、ISO27001 国
际标准,成为国内首家通过“双认证”的总行级数据中
心。经过7 年多时间的实践和持续改进,生产运行管
理水平明显提升,保障安全生产的效果十分明显。今
年,全行正大力开展生产运行质量管理体系建设,推动
ISO20000 体系与分行运维工作有效融合与持续改进,
年内完成分行运维流程的落地,实现总分行运行流程对
接、标准统一、操作风险可控。
2. 狠抓产品投产变更管理
投产变更是最易引发数据中心运维风险和安全事件
的因素之一。互联网时代业务需求日益攀升,投产变更
时间要求紧、任务急,风险防控难度大。为此,农业银
行将变更风险防控作为投产变更管理重点来抓。一是建
立了一套覆盖变更全生命周期的管理机制,统一了全行投
产变更窗口,有效降低变更对业务的负面影响。二是建立
了开发部门预评审、运行部门集中评审、重大变更联席评
审的机制,发现问题一票否决,坚决杜绝生产系统“带病
运行”。三是建立变更管理流程评价模型和量化标准,将
变更风险控制纳入关键绩效指标,不断提高变更管理的精
细化水平。通过采取以上措施,农业银行连续5 年实现了
变更发布成功率100%,运行成功率保持在99% 以上。
3. 持续优化系统架构,提升信息系统高可用
能力
以BoEing 系统建设为契机,农业银行对核心业务
系统和相关的120 多个外围系统进行了整体升级改造,
大力推进系统基础架构优化,从根本上提升安全生产
水平。一是创新主机通信接入模式。在行业内首次将
基于主机的三层架构简化为两层架构,在主机上直接
采用TCP/IP 短连接接入方式,去除了主机接入中间层,
形成一种扁平化的架构。这种架构构建了一个弹性好、
可扩展强的基础平台。二是优化应用负载接入模式。
采用应用层负载均衡设备作为桥梁,这道桥梁隔离了
数以万计的前台终端设备对后台的直接冲击,可以动
态调配交易负载。对于主机系统单个逻辑分区(LPAR)
或单个交易中间件分区(CICS)可能发生的异常,通
过负载均衡设备可自动侦测和规避,从而显著提升系
统的整体可用性。三是推进开放平台高可用改造。针
对开放平台系统多、运行环境复杂的特点,广泛引入
虚拟化、负载均衡、大数据等新技术,开展了重要系
统“双活”或集群架构改造,建立可动态管理的“资
源池”,提高设备资源利用率,因系统缺陷导致的服
务异常减少87%。
4. 构建高效稳定的基础运行环境
在机房基础环境和设备运维上,大力倡导“集约、
高效、节能”的理念,提升基础环境和设施设备的稳定
性。一是大力开展机房扩容和资源挖潜。使用高可靠
电气系统、高效节能空调系统、集约化综合布线等
高新技术,实施了机房扩容改造,自主研发了机房
电器辅助设备,荣获8 项国家实用新型专利。建立
常态化老旧系统下线机制,实现生产资源回收重复
利用。二是构建稳固的生产供电体系。数据中心园
区供电系统从不同变电站引入市电电源,两路供电
设备的容量达2 万千伏安,实现了市电供电的高冗
余、高可用。在应急供电保障方面,数据中心部署了
8 套柴油发电机,可在市电中断后立即输出稳定的电
能;配套建有2 个地下储油罐,在不续油的情况下,
可确保机组满载供电72 小时。三是加强生产供电应急演练。对备用的柴油发电机进行实战演练,不仅
仅要切上去,还要长时间带载运行,目前是可运行8
小时,每个月都实施,确保柴油发电机不是摆设,
关键时刻能够有效运行。
5. 实现全行一体化应急管理
互联网时代全天候化的交易特征,要求运维管理中
必须建立一套切实可行的应急体系。围绕“第一时间恢
复生产”的应急总目标,全行建立了以“快速响应、快
速定位、快速处置”为核心的“三快”应急体系,应急
处置效率明显提升,最大程度保障了业务服务连续性。
一是统一应急调度。以集中调度为主线,全行执行统
一的应急标准和规范,横向到边,纵向到底,总行数
据中心作为全行安全生产第一责任部门,统一响应全
行信息系统突发事件,统一调度应急处置的人、财、
物资源,确保快速响应和指挥。二是完善应急预案
体系。建立全行统一的应急场景库,共收集应急场景
329 个,覆盖生产运行各环节。高度关注演练的场景
和效果,重点开展突发性、实战性应急演练,以及应
急情况下科技与业务部门的信息通报和联动,确保突
发情况下应急预案可行。近三年演练的场景覆盖率达
100%。三是组建重要应用系统应急团队。针对业务敏
感、交易实时性高的重要信息系统,组建跨专业的应
急保障团队14 个,进一步提升重要业务应急保障能力。
四是打造高效顺畅的第三方应急联动。在强化内部应
急管理的同时,农业银行与外部技术厂商以及供电、
通信、消防、等相关单位都建立了顺畅的应急联
动机制,如同供电公司签订“用电安全保障协议”,
与上海城市火灾自动报警信息系统(FAS)联网等。
在突发情况下,能够及时实现全方位、多角度的应急
联动。
6. 加强灾备建设,提高应对重大灾难事件的
能力
灾备系统是安全生产的最后一道防线,农业银行的
灾备体系分为总行、一级分行和网点三个层面。一是
总行层面积极推进“两地三中心”建设,按照京沪两
地发生极端灾难时,全行主要业务数据不丢失、主要
业务系统实现分钟级“一键切换”、异地运行的要求,
做好北京数据中心新园区投入使用的各项技术实施工
作。二是针对局部地区自然灾害、极端天气频发的情
况,将分行和网点灾备建设作为重点来抓。2012 年,
集中式一级分行灾备中心建成投产,实现应用级实时
灾备。网点层面采用一对多的主备模式。灾难发生后,
通过3G 无线接入,完成故障网络恢复。目前,3G 无
线灾备模式已覆盖所有二级分行,网点级灾备演练已
经常态化。三是在全面完成36 家分行灾备系统建设
的基础上,加强灾备能力建设,推进灾备演练向实战
转型。
7. 推行准军事化管理,加强全行生产运行统一
管理
一是按照“流程化管理、专业化分工”的总体要求,
加强全行生产系统运行的集中管理,防范运行风险,
实现京沪两地运行作业环境、生产调度和技术的统一
管理,全行停机维护窗口统一安排。二是建立了全行
生产运行日例会、月例会机制。日例会每天不断,五
年来,累计召开了1163 期日例会和63 期月例会,使总分行生产运行高度耦合一体,及时沟通生产运行
情况,解决生产运维中的各类问题,使信息透明化。
三是建立了农业银行生产运维指令单机制。对于一些
重大问题,比如时期、“双十一”时期,下发指
令单,实行准军事化管理,令行禁止。截至目前,已
累计发布工作指令单76 份,充分发挥了总行对分行
的指导作用。四是推行全行统一的生产运维操作规
范,统一分行生产运维操作的基本要求,防范操作风
险。五是建立运维案例机制。针对日常运行中的典型
事例或主动性维护经验,编制运维案例,全行统一汇
编入库,目前共收录案例268 篇。编写完成后,组织
开展全行宣讲,分行普遍反映效果明显,具有很强的
借鉴意义。
8. 持续提升数据中心运维自动化水平
从运行监控、运维操作、流程管理三大维度,积极
推动数据中心运维自动化工作。一是监控方面,通过基
础架构、应用监控、网络旁路监听三种方式对总分行运
行情况实时监控,建立了涵盖主机、开放平台、应用、
网络、环境等各专业领域的集中监控系统,实现监控告
警信息集中接入、统一展示和统一处理。二是运维操作
方面,数据中心各类操作均纳入作业操作统一调度平台,
计划今年主要应用系统操作自动化率达90%。三是流程
管理方面,建设了IT 服务管理平台和生产运维管理平台,
实现对事件、问题、变更、配置、容量等日常运维管理
流程自动化管理。
三、新时期运维工作展望
安全生产是一项长期而艰巨的工作任务,必须建立
常态化的工作机制,全员参与,不断完善,持续改进。
面对互联网改变一切的浪潮,数据中心必须紧跟业务发
展新趋势,把握行业监管新要求,主动应对成本快速增
加、资源管理日益复杂、信息安全、能源危机等问题,
打造“高效率、低能耗,高整合、低占空,高可用、低
风险”的绿色数据中心。在实践中,以下几个问题是互
联网时代运维管理的重点研究课题。
一是妥善应对业务快速发展与IT 资源有限的矛盾。
经济新常态下,商业银行面临较大的成本收入比压力,
包括IT 投入在内的各个方面都要精打细算,IT 资源
的投入增长相对不足,业务快速发展与IT 资源紧张
的矛盾凸显。过去单纯依靠资源投入、规模扩张的粗
放式发展方式已不可持续。通过技术转型、架构更新
和资源灵活调配,实现IT 资源循环利用,已成为当
务之急。
二是全面提升运维自动化水平。“工欲善其事,必
先利其器”,为有效应对互联网时代日益增长的运维需
求,必须大力开展运维自动化建设,推进开发与运维融
合(DevOps),提升运维管理智能化水平。具体到运
维上,应全面提升“监管控”自动化水平,在监控上
围绕应用性能监控,整合各专业监控信息,提升运行
监控发现率;在操作上建立作业和操作自动调度平台,
提升操作自动化覆盖率;在运维管理上围绕流程管控、
运维分析和配置管控,打造自动化处理平台,减少人
工干预。
三是发挥数据挖掘作用。客户与经营数据是互联网
时代难以复制的核心竞争力, 也是经营风险分析和客户
定制化服务的基础。对数据资源的利用和管理,已成为
银行实施业务转型、提升经营效率的重要突破口。作
为资金流和数据流物理载体的数据中心,在保障运行
安全的基础上,应高度重视自有数据资源挖掘,搭建
运行、交易和资源容量数据的智能分析模型,将零散
的市场和客户数据高效转化为精准营销、客户管理、
风险管控等决策支持数据,重新发现海量数据价值,
助推银行业务。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务