当前位置:电子银行 > 正文
中国银行:大数据在银行领域的应用与实践

  一、银行数据管理面临的困境与挑战

  第一,数据结构单一与大数据营销支持之间的矛盾。在座很多银行包括证券2000年前后都做数据仓库,那时候数据仓库是传统集中式架构,用到小型机用到集中存储。这个架构带来问题是数据增长,会导致数据增长量不断增加之后,导致存储,包括我们的数据这方面都带来一些问题。第一点这是我们面向精准营销,面向大数据营销场景存在的问题。随着金融科技发展做大数据精准营销不仅仅需要内部数据,还需要外部数据。还需要互联网社交数据,还需要我们一些非结构化数据,这些数据在传统数据仓库下面没有办法保存,或者是难以存储和分析。如果在现有互联网的金融架构下,我们原有数据仓库无法支撑。

  第二,传统存储技术与大数据快速增长的矛盾。这个实际上讲到传统数据集中存储带来一个主要问题,就是存储成本比较高,同时扩容难度大。如果数据量大到一定程度,扩容的时候上层应用需要不断更新调整,这对业务连续性也会造成影响。同时检索效率也会大幅度下降。

  第三,大数据检索缓慢与需求快速响应的矛盾。这是现在我们为什么说在大数据技术有了之后,所有数据可以在线上做,所有应用可以做成实时,传统数据仓库还只能停留在交互,还是有延迟情况下处理。对于基于互联网在线应用,我们需要是秒级访问,低延迟访问,这是需要分布式数据仓库才可以解决。

  二、银行建设分布式数据仓库实践

  我们认为银行数据仓库必须要变革,怎么变革?归纳下来银行基于Hadoop数据仓库架构是我们发展的方向。主要是大数据技术能力体现以下三点:

  第一,数据平台定位。传统数据仓库只能解决结构化数据问题,新型数据仓库可以解决半结构化数据、非结构化数据。

  第二,三种类型数据如何去采集、分析、展现,如何加强数据处理,包括数据挖掘功能,如何实现,数据安全方面如何保证。

  第三,新型分布式架构数据仓库,必须能够快速的处理数据,把这个数据从底层,从边缘层到中间层到上层,到模型层,到展现层必须快速处理,整合成不同数据集市,快速推向不同数据场景应用。

  我们行搭建这样分布式数据仓库架构,首先是数据源层,把内外部数据通过不同渠道采集,采集保存到数据存储计算层,这是基于星环Hadoop平台HBS作为分布式平台存放,还有用spark组件,slipstream组件形成一些计算功能。数据加工以后保存在数据服务层,这是对边缘数据保存,加工形成整合数据、汇总数据,最终利用数据挖掘模型上传数据,最终落到每一个数据集市,由这些数据集市通过应用服务层为用户提供相应服务。

  ETL架构实际上是宏观概念,不仅仅包含我们本身数据仓库里面一些功能,而且还包含批处理作为调拨功能,最开始2015年,那时候大家数据Hadoop这种组件,包括我们一些MPPDB组件都不具备数据调度功能,这个是需要我们在建立一些数据管理工具,实现作业的基于顺序,基于逻辑关系作为调度来满足后续运维阶段要求。

  还有集成开发管理功能,大数据平台是统一的面向我们的各类应用平台,必然带来是我们的多项目组协同合作,如何确保按照统一标准开发应用,按照统一数据结构标准制定这些数据,需要我们这方面做一些管理。相应功能包含比如代码管理、版本管理、项目管理。最后是数据仓库的集成运用的对接,这是要求大数据平台能够与我们的数据仓库,以及标准化数据服务之间有相应标准接口。

  这是我们的数据模型设计,分布式数据仓库,如何把不同应用场景下面数据能够落地到我们的数据仓库之中,并且保证性能有很大提升,需要用不同组建,这里充分应用星环大数据平台提供不同组建优势和性能特点,结合了本身不同应用场景,去设计我们的整个数据结构。针对P处理情况,我们采用基于ORC表存放,ORC表也有事务处理功能,对于我们增删改查就可以用ORC事务表确保功能性。Hadoop开源不具备这个功能,日后运维阶段会造成负担。对于机器查询,交互统计分析,我们是用hyperbase实现,我们确保机器查询性能良好。

  第二类是并发解锁,固定条件格式是针对固定历史交易检索,经过hyperbase架构实现,对于全文检索,我们一般把数据加载到ES中,结合一些数据技术提高差异性能。最后是实时处理,流计算这一部分,我们利用stream实现这个功能。通过标准数据接口服务提供一般放在hyperbase实现。以上是数据仓库设计,经过两年运行发现我们数据性能较原有性能大幅度提升。总体效率是300%以上,具体指标不讲。基于机器式交互式查询性能很好,一张宽表客户画像500字段,数据量100G左右,现在交互式查询性能达到10秒以内,基于传统的分析式数据库在同等条件下达到一小时到半小时才能有响应的情况。

  三、银行大数据应用方向

  前面讲是分布式数据仓库建设,这是基础。有了这个基础我们就要考虑银行相应大数据应用如何发展,前期我们做过一些详细调研,结合业界一些比较好的案例。归纳总结下来八大方向,这个大家都去讲这一块,我不会详细讲。客户画像不讲,这是建立内部数据和外部数据结合,如何把客户画像原来考虑企业内部信息,拓展成360立体画像。精准营销是建立在全生命周期基础上,提供相应可定制化服务和产品。应用管理优化在一些财务上面,看看有什么可以通过大数据技术可以提升相应效率。

  欺诈检测,如何通过大数据解决。风险管理也是主要应用大数据技术不断丰富我们的风险监控手段,提升相应风险指标计算效率。舆情管理针对现在有一些数据通过外部数据爬取,这个效率如何保证,外部互联网文本如何利用全文检索技术提升精确检索能力。渠道优化是网点选址、转型、优化这方面,这方面利用地理信息,还有一些我们的人口数据,包括行业数据做一些分析。

  2014年、2015年大家都在说大数据,大数据到底怎么做,大家很多是炒热点和风口,为了做大数据做大数据。我们从2014年、2015年时间也考虑做大数据,但是这个做大数据我们觉得要把动因搞清楚,做详细分析和调研。所以我们把银行过去十几年在数据管理方面一些情况,包括一些成绩和不足都分析了一下,在这里简单提几点。这几点是为什么要上大数据平台主要原因。

  四、银行大数据综合服务平台实践

  基于前面八大类银行大数据应用方向,我们可以把他在我们上海分行主要分为以下四个方向,开发相应大数据应用服务平台。整个大数据平台是大数据综合金融服务平台,现在没有完全建完,在这四个方面发展。大数据检索平台、大数据营销服务平台、大数据风控服务平台、大数据采集服务平台。

  大数据检索服务平台依托星环大数据存储、检索高性能,整合银行交易类数据,这个数据保存十几年,数据铺到大数据平台。之后实现跨系统一键交易查询。我们针对交易对手信息可以搭建搜索引擎,利用全文检索技术,实现高查询。

  同时实际上大数据应用之后,我们银行,包括监管也提到如何做好信息安全管理,为此我们觉得所有数据面向用户,面向客户开放同时,必须有一套监控手段。就意味着必须和内部会员查询有审批流程往前进。同时我们接口必须保证是印出方式,可以保证查询性能,要保证三级审批流程能够顺利实现。还在我们的查询历史交易检索背后做了审计功能。事后我们的监管或者是我们的稽核相关部门检查,也能够把历史查询轨迹调动出来。

  大数据检索服务平台同时还提供一套高速检索能力,去洞察我们的各种特色交易,他们的一些实时交易情况,这个是针对我们的管理层以及我们的一些业务人员,对于他们所关注企业和客户,他们如果发现异常动荡或者是超过交易总额值,会做一些干预,这个是用地图信息功能,把分支机构在所在地理位置做的描述,相关使用人员可以使用点击地理位置信息可以查询他们一些交易机构汇总,在此基础上可以做一下向下钻取,能够查询客户一些基本信息。

  介绍一下大数据营销服务平台,这是利用星环可视化机器学习平台,构建的一整套系统营销服务平台体系。我们平台上目前开发很多这样的数据挖掘模型,比较突出有客户分析挖掘,信用卡一次套线分析等等模型。我们营销服务平台上遵循一整套流行建模,从业务理解、数据准备、数据理解、模型构建、模型评估,模型应用,中高端流失预警针对高关联性通过建模找到有可能流失一部分客户,让客户经理提前干预,进行差异化产品服务策略,从而尽量挽回客户,这样提高中低端客户流失率。

  模型构建过程当中,我们主要针对客户技术属性,基本客户属性,持有产品,交易情况,账户情况,渠道喜好,去挑选相应主要变量,对变量进行打分,就形成每一个客户在中高端客户流失层面分数,分数高低就决定了流失可能性。

  我们模型层运用不同机器学习算法进行策划,这个用到逻辑合规模型,决策树模型,神经网络模型,我们觉得逻辑合规模型测算更准确。前10%这一部分客户,评分最高的客户他们流失比例达到20.2%,相比之下整个训练级里面,平均5.9%的流失率,整个流失率预测提高了3.4倍,极为这我们只要营销前10客户就能够覆盖32%流失率,有效提升客户流失率挽回指标。

  第三讲下大数据风控服务平台,大数据风控服务平台针对我们星环大数据平台提供的高速的计算引擎,去丰富我们的风控这些手段,提高风控效率,通过汇总,对公、对私、表内、表外,整合我们整个风险信息,精确性定位我们的客户有效风险传染半径,实现一点触发,公司联动响应策略。

  这里介绍一下舆情大数据爬取,和外部数据爬取功能。其实2015年搭建大数据风控服务平台,里面用的大数据实际上通过外部我们爬虫程序,把相应需要文本爬下来存储到外表,以及我们的hyperbase表中,最后通过ES实现相应一些预警信号生成。通过这样的迁移和改造,我们大数据风控平台在外部数据预警加工效率上得到提升。关于数据库加solr体系设备,产出数量没有降低情况下,耗值提升三倍。我们风险管理部测算的,目前用我们的静静功能,有效避免潜在损失。

  最后介绍一下大数据采集服务平台,众所周知大数据重大意义是把内部数据和外部数据进行有效整合,实时给大家提供无。这方面我们以前做的不够,现在有了微服务更加强调这个概念,以前在传统应用系统里面,应用数据服务,是固定耦合在我们应用系统当中,现在如何数据服务解欧出来,让数据服务成为标准化接口。通过组合快速实现数据场景应用快速开发与迭代,这是我们的目标。通过搭建这样的大数据采集服务平台,实现了我们标准数据服务接口统一化配置,也实现相关监控、预警方面工作。目前我们采集服务平台,对接一些平台数据,向上向下对接相应应用系统,这些应用系统目前也是收效非常明显。

  对公开户流程优化项目减少柜员录入栏位超过100个,减少客户填写,审核栏位超过60个,减少了人力,效率大幅度提升。

  五、前景与展望

  简单提一下未来发展方向,目前因为我们还是星环大数据平台下面搭建一套物理集群,未来非结构化数据,半结构化领域不断增长部分场景需求,我们势必要增加这方面一些投入,如何实现影像、视频分析,经过相关调研发现,一个下面实现相关功能有一定困难,相应资源调整优化比较难。有一个好的解决方案,运用大数据云平台架构,通过虚拟化一些技术,Data技术,容器技术,虚拟处我们的集群,通过这个集群实现相应的影像方面,视频方面应用。实际上云平台概念已经炒了很多,从本身大数据角度,云平台优势很多,无外乎数据开放角度,原来我们没有云平台的时候是从数据开放,有了云平台可以做基础设施,可以做模型层,挖掘层开放,同时我们大数据云服务还可以提供相应的一些成本上的优势,以及部署上的便捷性大幅度提高,大数据应用门槛也会下降,这对于我们在向这种非专业化企业,运用大数据就会更加得心应手。

(文章根据会议记录整理)

相关链接:

作者:韩路 来源:星环科技 发布时间:2018-06-07 09:21:04
 
 
  我要发表留言  查看所有评论
 

*
 限制字数显示剩余字数,最大长度: 500 还剩: 500
用户名:
       尊重网上道德,承担一切因您的行为而直接或间接导致的民事或刑事法律责任