当前位置:电子银行 > 正文
中国建设银行:数据治理最佳实践

  近些年,随着金融业在国内的迅猛发展,银行业的规模与发展速度也是如火如荼,网上银行的兴起也极大地便利了民众的消费、支付和理财,许多传统的银行业务逐渐过渡为网上交易,利用互联网平台,快速高效地处理交易,离不开一个良好的数据治理方法。可以说,没有数据治理,就没有数据架构;没有数据架构,就没有大数据;没有大数据,就没有高效便捷的信息化时代。“高标准、高质量、高安全 ”是数据治理的三大目标。

  建行于2005年启动了GMIS数据清洗和补录工作,为提高建行内部评级工程的数据质量打下良好的基础。建设银行建立了企业级数据模型及规范体系,统一了数据标准。建成包括企业级数据模型、数据标准、业务术语、指标体系和衍生数据在内的较为完整的数据规范体系,通过数据规范,统一全行数据基础,为打破数据孤岛实现数据互联互通、实施大数据战略创造了条件。建设银行启动数据大集中工程后,制定了数据的规范和符合国际标准的统一编码。

  为了更好地利用主机资源,建设银行提出“主机+开放”的融合架构,确保“好钢用在刀刃上”。主机资源用于核心账务系统,利用开放平台处理查询业务或者普通维护性交易,采用削峰填谷的方法优化主机资源使用,确保账务交易的资源。通过6个方面对大数据平台的数据进行了全生命周期的管理,包括建模、验证、清理、准入、数据地图和一些规范。建设BI应用在总行数据平台上进行元数据管理。“多层水闸式”防范体系保障安全,标准的池化存储架构提高数据安全及可用性。

  一、设计原则

  中国建设银行数据逻辑模型采用面向主题的设计方法,组织来源于多样的业务数据,使用统一的逻辑语言描述银行业务,以保证数据的一致性,所遵循的设计原则主要包括:

  1、中性与共享性

  该模型选择了语义关系建模的设计方法,结合了业务角度建模方法和关系建模方法,以一种清晰的表达方式记录跟踪金融机构的重要数据元素以及变动,它们之间的各种可能的限制条件和关系能够表达重要的业务规则,如父子关系(团体和个人团体)、排他分类(事件的分类)、多对多(团体和协议的关系)等。

  2、模型的统一性

  作为基础数据平台设计基础的逻辑数据模型在设计过程中保持了一个统一的业务定义。如果是从第三方购买的客户信用等级和银行内部信用等级数据,必须依照一套相同的存放规则进行处理,它们和其他数据的关联以及刷新的频率等都应该保持同步。

  3、模型的灵活性

  如果有新的需要,逻辑数据模型的这种结构能够进行简单、自然的扩充。比如,可以从一个客户的基本信息资料、持有产品、账户信息入手进行简单的分析,然后补充客户和其他机构、客户的关系,并记录和银行的往来历史,延伸至全面的客户关系管理。

  4、粒度性

  为了满足将来不同的应用分析需要,该模型能够提供最小粒度的详细数据以支持各种可能的分析查询。

  5、历史性

  CCB-LDM(中国建设银行逻辑数据模型)作为数据仓库系统基础平台的逻辑数据模型,利用各种不同的时间戳保留大量的历史数据信息。处理客户现在的特征外,为了得到保留该客户、销售新产品的可能性,或客户是否会有欺诈行为,可能还需要分析客户在过去一段时间内的各种行为,包括所持有的产品的变化以及交易的次数。

  二、数据治理工具

  中国建设银行是股份制商业银行,国有五大商业银行之一,拥有广泛的客户基础,与多个大型企业集团及中国经济战略性行业的主导企业保持着银行业务联系,营销网络覆盖全国的主要地区。规模庞大的体系让建行在数据治理方面下了很大的功夫,其数据治理措施落实了政策、流程、组织和技术也符合高标准、高质量和高安全,其中包括数据集中工程、赛门铁克数据管理和ITIL管理方法。

  1、数据集中工程

  从2002年股改说起。得益于股改的契机,建设信息化发展趋势发生了巨大的改变,首先是以数据大集中为标志的建行新一轮信息化建设开始。建行的数据大集中工程主要目的是达到全行单一法人的经营结构,在全行建立起一套核心业务系统,以支撑业务的正常运作,而核心业务系统的运行则是依托了北京和上海两地的数据中心。

  在5、6年的时间里,建行总行数据中心部署的设备快速增加,数据中心规模急剧膨胀。机房面积也由股改前的1千平米扩展到1万平米。在此同时,一级分行数据中心的发展则更加趋于平稳。而这正是印证了建行将更多IT资源应用于总行数据中心的发展策略。与此同时,总行系统的高度集中也为数据中心安全可靠运行,特别是数据中心运维管理的理念、流程和制度等方面提出了更高的要求。

  建行的数据集中工程主要包括:“贯穿南北”的数据集中工程和“行之有效”的集中构架。根据建行的规划,数据集中的工程的总目标是在全国建立以北京(北)和上海(南)为中心两大数据中心,并以这两大中心为基础,为建行辖内分支机构提供银行核心业务处理服务,进而实现建行全国的数据集中。

  较早建立企业级数据仓库,整合数据视图。开发企业级数据仓库、企业级信息应用平台、监管统计系统、员工业绩指标系统,建立企业级多维度统一的数据视图,支持跨层级、多渠道、灵活多样的信息应用;在数据仓库中探索引进大数据管理技术,建立大数据应用基础环境。在中国建设银行总行之下,有数据中心、参数中心、六个开发中心和三十八家一级分行。

  建行的数据大集中是落实到政策的一项工程,为了保证其庞大的数据体系能够正常运转,在多年的发展与探索中,建设银行已经建立起了一套拥有高标准的数据治理体系。

  2、ITIL管理方法

  谈到建行总行数据中心的运维理管理念,建行运维部门主管张志深说:

  现在的管理理念是基于ITIL但是又不仅仅局限于ITIL,而是更好地把ITIL理念和建行实际情况结合起来,发展创新出的一套独有的运营管理体系、流程和制度。

  而这套有特色的管理流程正是基于张志深和他的团队根据前期建行总行数据中心运维管理的经验和教训总结而来。

  现在,建行拥有北京、上海、武汉三个数据中心。而其中的北京数据中心是全行的生产中心,武汉数据中心是灾备中心,从而一方面解决了生产中心现有容量不足的问题,同时建立了完善灾备系统以满足监管部门对银行业务连续性的要求。

  考虑到发生事故时的数据处理办法,建行武汉数据中心的建立和ITIL的运营管理方式符合高质量的要求,落实到了组织层面。

  三、中国建设银行的数据治理的三高

  1、高标准

  Volume,Variety,Velocity,Value是大数据的“4V”特征,如何治理结构化、半结构化、非结构的海量数据,让数据“活”起来,挖掘分析数据潜在的业务价值,让数据创造财富。这就需要“高标准”的数据治理,统一数据标准是数据治理的核心内容,没有统一的数据标准、缺乏从全行的角度构建统一的基础信息平台,因此相关系统的标准口径、会计科目的不一致,形成了一个个信息孤岛,使得系统中的信息无法有效共享,造成了银行信息资源利用的低效率。建设银行在“高标准”的数据治理中,主要体现在对云计算技术的理论研究和实际应用中。

  建设银行响应号召,积极推进云计算等相关技术的研究与应用,努力探索大型商业银行云计算数据中心及运维体系建设的最佳实践方式,中国建设银行股份有限公司在 2011 年启动的“新一代核心系统”项目中开始实践。2013 年开始实施效果逐步显现,体现为基础设施标准统一、应用部署快速发布、参数标准统一固化、监控处理敏捷有效、资源供给周期从“周”缩短到“分钟”。建设银行将在“新一代核心系统”、“两地三中心”数据中心建设中持续探索、深化云计算应用。

  云计算数据中心资源提供的方式与以往有很大的不同,它以快速敏捷的服务方式向用户提供,而传统的数据中心是面向应用的偏向个性化的资源供给。首先,在技术实现方面,传统的数据中心是分层次、分应用逐个技术叠加实现最终的资源提供,不同的层次是由不同的团队进行实施,此种情况下形成的技术标准或规范很难在云计算数据中心中继续使用。其次,云计算建立在大规模的资源池和自动化的基础之上,而资源池的形成和自动化的实现都需要标准化支撑。因此,云计算数据中心的实施必须标准规范先行,才能达到事半功倍的效果。

  建设银行在云计算实施过程中全面梳理了现有技术和规范,将新的架构设计和服务要求融入标准规范之中,形成了包含服务目录、计算资源、存储资源、网络资源、数据库资源、机布线、命名规范、云服务开发等的相关技术标准或规范,为云服务设计以及云管理平台有效地进行资源供给和资源管理奠定了基础。

  2、高质量

  提升数据质量是数据治理的关键任务。

  高质量的数据不应仅满足于高准确性,而应转变为一个包含丰富内涵、具有多种维度的综合性概念;而且,随着统计的服务外延从数据服务向决策服务转变,数据质量还需要满足用户的需求和期望。同时,结合全面质量管理理论,如果将数据视为产品,那么数据质量不仅包含数据本身的质量,还应包括数据产生和形成过程的质量。

  综上所述,数据质量PWS是在数据收集、处理和加工、生成和应用等数据产生和形成的整个过程中,影响数据满足用户需求的一组特性。一般情况下,数据质量包括数据收集过程的准确性、真实性、适用性等,数据加工和处理过程中的可比性、方法健全性、可衔接性等,数据生成和应用过程中的及时性、完整性、可获得性等,及整个过程的成本有效性等。

  为达到数据治理“高质量”的目标,建设银行采用标准池化存储结构技术来存储数据。

  NAS、SAN 存储:SAN 存储从应用(AP)层、数据库(DB)层混合部署转变为全数据库层部署,大面积在应用层使用NAS 存储替代SAN 存储。

  打造“存储标准化”:实行存储配置标准化、资源池化,屏蔽了不同产品带来的差异化,减少了维护成本,同时实现了存储资源快速、灵活的供给。

  “边缘—核心—边缘”三层SAN 存储网络:实现了楼宇内任意地点的存储网络接入。

  3、高安全

  维护数据安全是数据治理中不可或缺的一部分,数据的安全性能否得到保证以及当数据遭受一定的破坏后的灾备处理能力直接关乎整个银行的生存发展。因此,数据高安全性是衡量银行数据治理能力的重要参考指标之一。为此,建设银行采用“多层水闸式”防范体系。

  原安全架构的安全功能与应用系统集成实现,嵌入到应用系统中,与应用系统紧密耦合,导致安全策略与安全功能固化。“新一代安全架构”的应用系统只集成通用、标准化的安全代理,所有安全功能通过安全代理为应用系统提供,后台的安全服务可以统一调度、灵活组合,安全服务的调整不会导致业务系统的改造。

  数据治理保障机制是银行数据治理框架中的关键,科学的数据治理技术没有完整的保障机制来进行制约、管理,是很难做好数据治理的。建设银行数据治理的落地保障由政策、组织、流程和技术这四部分组成。

  四、中国建设银行数据治理的四大落实

  1、订立严格的企业级信息化政策

  主要分为规章制度、管控办法、考核机制三个部分。

  为了更好地利用主机资源,建设银行提出“主机+ 开放”的融合架构,确保“好钢用在刀刃上”。

  核心账务系统,部署在主机平台上;查询系统,部署在分布式平台上。

  主机资源用于核心账务系统,利用开放平台处理查询业务或者普通维护性交易,采用削峰填谷的方法优化主机资源使用,确保账务交易的资源。

  查询系统与账务系统分离,既分散了系统风险,又提高了并发处理能力。

  最近三年在实际业务量年均增长32% 的情况下,主机MIPS资源零增长,取得了节省投资的良好效果。

  2、组建专业的数据治理组织

  具有专业知识水平和创新能力的组织为数据治理提供了人员保障,没有一个执行团队来将数据治理的方法、理论付诸于实践,那么,所有的数据治理都将是纸上谈兵,毫无意义。

  建设银行拥有专业的、有力的数据治理团队,才能结合建行自身的特色和需求,对数据治理提出有效可行的解决方案和建设性意见;结合理论学习,自主开发云计算管理平台,并将其应用到数据治理当中。

  3、基于顶层设计开展IT流程化

  制定流程是为了确保目标能够顺利的开展,循序渐进的完成,少走弯路。

  建设银行数据中心在“新一代”核心系统、“两地三中心”基础设施建设中,“新一代核心系统”旨在重构一个商业驱动的企业级IT 系统。企业级系统是从业务的顶层设计开始,而非从局部需求发起,根据业务架构梳理的114 个业务组件以及流程建模、数据建模的成果,规划设计出“7+1”层的IT 架构和64 个信息技术服务能力。

  4、采用适当的专业支撑工具

  遵循科学的技术规范、有效可行的实施办法、基于可靠的支撑平台是做好数据治理技术的三个关键要素。

  建设银行数据治理团队结合建设银行自身的特点和业务需求,自主开发了全面自动化的云管理平台,先后实施了IT 基础设施的服务器安装、版本部署、服务启停、日常巡检、配置比对等一系列自动化工具,极大提升了数据中心运营管理的自动化水平,形成全生命周期的自动化管理模式,完美支持了应用项目以及相关IT 框架、平台、技术和安全组件的投产上线。创造了5 个工作日内交付上千台虚拟化服务器的行业纪录,在简化流程、提高效率的同时,有效控制了操作风险。

  五、中国建设银行数据治理的八大行为

  数据治理的核心领域是数据模型、数据质量、数据标准、主数(据)管理、数据架构、数据生命周期、元数(据)管理和数据安全。

  1、数据模型——做建模

  由于银行的部门分散,其中各个部门沟通交流不善会对银行的业务实施造成重大影响,因此,银行需要企业级数据模型以统一全企业数据概念与定义,增进业务人员与技术人员的相互理解与沟通,保证需求定义的准确性。其主要流程为:

  首先,需要由业务人员提出业务需求,并描述业务需求所需的数据内容;

  其次,通过业务人员及技术人员合作,根据业务对象抽象出数据概念,定义其描述、分类与关系;

  然后,技术人员根据数据概念描述、分类,抽取出数据实体,并利用ER图描述其关系;

  最后,技术人员针对数据库特性将数据实体物化为数据库表,支撑实际应用。

  由于中国建设银行一级分行各自的数据平台的建设导致建设银行目前内部系统不统一,其内部的系统主要有:核心业务系统CCBS、信贷管理系统CMIS、个贷系统PLS、外汇资金系统OPICS等,他们之间的信息有重叠及不一致存在,无法达到业务人员与技术人员相互理解与沟通的目的。因此,如何应用这些数据,如何进行标准化处理,建立全行统一标准化数据模型,是满足建设银行的企业管理、决策需要的重要条件。目前,建行的概念数据模型为数据仓库及管理信息系统规划项目的产出,在分析建行报表的基础上,利用建行数据源分析项目的成果,建立建行核心逻辑数据模型初稿。

  2、数据质量——做清洗

  由于互联网及通信技术的飞速发展以及数据量的爆发式增长,银行的数据也大规模增长,然而,其中无效数据同样也将大幅度增多,这就要求银行需要对数据质量进行限制。

  中国建设银行依据《银行监管统计数据质量管理良好标准(试行)》中的要求,实施新资本协议实施风险数据管控体系咨询项目以及全行IT战略规划_企业级数据管控咨询项目,并下发《中国建设银行数据质量管理暂行办法》,对数据质量即数据的及时性、完整性以及准确性进行了限制,详细地通过事前防范、事中监控、事后管控3个时间段进行监督。

  3、数据标准——做统一

  由于系统之间缺乏数据共享机制、共享数据缺乏业务解释和技术定义等原因导致了数据难以充分有效利用和系统之间难于整合的问题,而这些问题将极大的影响银行的业务效率及客户体验,为了解决这些问题,中国建设银行通过通用数据标准的制定以满足建设银行管理信息共享以及全行信息技术开发的迫切需要。

  根据已确定的建行企业核心逻辑数据模型,将模型中的数据项抽取出来。然后根据预定的业务数据项筛选方法,筛选出需要进行业务定义的业务数据项。然后,根据业务对所筛选出的业务数据项进行分类,产生用于通用数据标准及公共代码定义的数据标准项清单。而具体的通用数据标准的制定包括定义工作目标、流程、及模版,其分类标准则根据数据在银行业务中的使用频度和业务需求,参考业界金融模型,通过汇总分析,对通用数据进行分类,形成统一的数据标准在数据层面的定义,并以数据项自然分类为基础,对数据进行分类。

  4、主数(据)清理——做编码

  主数据是描述核心业务实体的数据,比如客户,合作伙伴,员工,产品,物料单,账户,以及位置信息等,它具有极高的价值,是企业内跨业务重复使用的数据,存在于多个异构的应用系统中,是关键数据,而不是全部数据;是操作性数据,动态参与业务流程,而不是静态数据。在建设银行中主数据为全行共享,全行服务的重要数据,与其他数据分离,作为单独的部分进行管理。

  5、数据架构——做共享

  中国建设银行进行了基于x86分布式架构的探索,对渠道类业务、查询类业务和大数据业务开始向分布式架构演进。

  首先建行通过业务分析,对于能够从集中式架构分离的,对数据一致要求不高的业务进行拆分。比如原来的客户信息管理的业务功能是集中在大型机,通过业务分析和组件化设计,定义了独立客户信息组件,则要把它从大型机上核心业务中分离出来,把它挪到分布式架构中。

  建行的分布式架构探索还用在其客户渠道的分库分表上,实施分库分表的高可用应用改造,从容支持应对电子渠道持续增长、数亿级的交易量和数据量。比如建行的客户渠道,网银、手机银行是承担着大量交易,通过将一个公共数据库,把它拓展为多个同构的公共库,使数据分布存放成为可能。根据客户ID取模对数据库进行垂直拆分,这样有效减少了高并发对数据库带来的访问的压力。通过这种应用改造,将同一个客户的缓存、限额包括过程流水都放在同一个数据库上,这样减少跨库的失误来保障客户体验。

  对银行核心账户交易,建行并探索数据强一致性过渡到数据最终满足一致的可能性。通过分阶段失误提交,异常错误检测和补偿这种机制来逐步将银行帐务系统转移到分布式架构中。

  中国建设银行2011年通过IT服务管理平台项目完成全行基于“物理集中、逻辑分布”技术架构的标准化流程管理平台的设计和部署;完成全行IT服务台建设工作,即在数据中心建设总服务台,总行开发中心和各分行建设自己的服务台,在对本地故障进行相应和支持的同时,还可以实现总服务台、开发中心服务台和分行服务台之间的互联互通。IT服务管理平台搭建了具有可测量性的全行运行服务质量的数据架构,为未来建立更有效完善的数据分析体系提供了扎实的技术平台和数据来源。

  6、数据生命周期——做管理

  数据的生命周期包括数据创建、数据使用、数据归档、数据销毁4个阶段。而数据在生命周期内有效则可以满足业务操作和管理分析的需要;满足对历史数据查询相关政策和管理制度的要求;满足审计管理要求;减少数据冗余,提高数据一致性;减少存储、硬件、运维等方面基础设施投入;提升应用系统性能,提高响应速度。因此,数据生命周期的管理必不可少:

  首先,在数据创建阶段,要求利用数据模型保证数据完整;执行数据标准保证数据准确;加入数据质量检查创建准确;保证数据在合理的系统生成。

  其次,在数据使用阶段,要求利用元数据监控数据使用;利用数据标准保证数据准确;利用数据质量检查加工准确;确保数据在合理的系统使用;控制数据的派生。

  然后,在数据归档阶段,要求利用评估手段保证归档时机;分数据类型归档数据。

  最后,在数据销毁阶段,要求利用评估手段保证销毁时机;分数据类型销毁数据。

  2013年8月,建设银行新一代核心系统自主研发的云管理平台项目上线,通过云管理平台的虚拟化管理、云服务定义、资源池、自动化、服务编排、弹性伸缩等功能,实现IT基础设施资源的全生命周期管理和服务的快速交付。在建设银行的新一代数据中心的规划中,引入云计算理念,通过虚拟化、资源池的方式统一管理和分配所有基础设施资源,实现IT资源从数据创建到数据销毁的全生命周期管理。

  7、元数据清理——做规格

  元数据是数据仓库的灵魂,它不仅提供了数据仓库中数据结构的逻辑层,也提供了数据仓库的构建和使用规则。为了使数据仓库中各个软件能够无缝地合作,必须在元数据层进行有效的集成。所以,研究元数据的作用与意义相当重要。元数据是关于数据的数据,即是对数据资源的描述,按其描述对象的不同可以分3大类:技术元数据、业务元数据和管理元数据。

  元数据管理中主要分为3个阶段:基础建设阶段、基本整合阶段、整合扩展阶段,其中各自的建设目标分别为建立元数据管理规范/组织、建立技术平台、建立元数据管理/技术功能、导入技术元数据信息;优化元数据管理规范/组织、建立技术关键技术元数据关联、建立元数据分析功能;完成各个元数据关联建设、与其它信息管理的功能整合。

  8、数据安全——做防范

  对于信息化最广泛、信息处理规模最大的银行业而言,除了信息系统的正常运转外,最重要的也就是信息的安全,建设银行从企业级、体系化视角开展了信息安全管理顶层设计,吸收借鉴IOS27001、GB/T22080、COBIT等业界成熟标准提供的全局思维和最佳实践,并将这些标准的理念、内容整合到实际管理制度和流程中,实现两者有机融合,取得了良好成效。建设银行出台了信息安全管理的纲领性《中国建设银行信息安全管理办法》,同时,为保障《办法》各项信息安全管理要求有效落地,配套制定了《中国建设银行信息安全管理办法实施细则》以及《中国建设银行生产数据应用安全管理规定》、《中国建设银行信息科技工作检查管理办法》、《中国建设银行信息科技风险管理制度重检操作规范》等各专项领域安全管理制度。

  结语

  股改十多年以来,建行的数据管理部积极面对不断变化的金融环境,主动适应,以银监会监管数据良好标准对全行数据管理的要求为基本,依托新一代核心系统建设,高质量地满足外部监管和内部管理各类数据要求,全面提升数据管理能力,并逐渐培养了一支适应业务发展需要的专业数据管理队伍。目前,建设银行已基本建立了数据管控体系,建立了企业级数据仓库、数据应用平台及各类管理信息系统,数据管理能力在国内同业中处于领先地位。

相关链接:

作者: 来源:IT常青树 发布时间:2017-11-30 03:21:10
 
 
  我要发表留言  查看所有评论
 

*
 限制字数显示剩余字数,最大长度: 500 还剩: 500
用户名:
       尊重网上道德,承担一切因您的行为而直接或间接导致的民事或刑事法律责任