当前位置:股票 > 正文
证券行业数据中心迁移方案

  数据中心作为证券公司内部各类IT系统的数据归结点和转发点,在证券公司各IT系统中的重要程度越来越高。随着多年以来证券行业交易数据、资管数据、客户数据、资管数据的累积,数据中心迫切的需要更新硬件设备,扩大存储容量,提高计算速度以支持证券公司内部日趋复杂的数据需求。近年以来大数据技术兴起,其中横向扩展存储的特点非常契合数据中心系统对于存储的需求,同时随着大数据技术越来越成熟,大数据平台已经能够满足证券行业对于金融交易高复杂度的要求。综合以上的原因,证券行业数据中心系统有迫切的系统迁移要求,本文就是从传统数据中心和大数据中心两个方面阐述证券业数据中心系统的迁移方案。

   一、数据中心概述

  1.数据中心的定义和作用

  证券公司级的数据中心,是一个抽取证券公司现有各交易系统、账户系统、资管系统、TA系统、资讯系统、估值系统等系统的相关业务数据,并进行标准化和提供各业务系统二次开发标准接口,解决证券公司信息系统孤岛化以及数据标准不统一等问题的信息系统。

  数据中心一般包括ETL抽取模块、数据模型模块、数据质量模块、数据服务接口模块等具体应用。

  数据中心系统中一般有自身特有的一些专业术语,现列举如下:

  2.数据中心的逻辑架构

  

 

  图1:数据中心逻辑架构图

    

  3.数据中心的网络架构

   

 

  图2:数据中心网络拓扑图

  上图是一种典型的证券公司数据中心系统网络拓扑架构图。证券公司的网络拓扑一般分为交易网段、办公网段、公网网段三层,其中交易网段部署大部分的OLTP联机事物处理系统,仅允许办公网段部分机器通过端口的形式进行单向数据交互动作;办公网段部署大部分OLAP联机分析处理系统,这一层的系统大多需要采集OLTP系统的数据进行分析应用;公网网段主要是部署需要互联网接入的应用系统,如资讯、人力管理等系统。

  证券公司的数据中心系统一般将数据存储、ETL、BI应用部署在办公网段,WEB应用部署在公网网段,通过Apache的转发服务器配置特定端口访问数据中心BI应用。

  二、数据中心迁移概述

  1.数据中心迁移背景

  随着证券公司IT化程度的越来越深,大部分的证券公司都考虑进行数据中心系统的建设,以解决目前IT系统存在的信息孤岛化和数据标准不统一的问题。

  尽管如此,证券公司初期的数据中心系统往往是为了满足部分特定的业务需求搭建,没有过多的考虑到数据扩展带来的系统压力,导致数据中心系统运行越来越难以满足业务需求;同时传统的数据中心架构通常是采用关系型数据库作为数据存储服务器,此类数据库往往无法支持横向扩展,在数据中心引入更多的非结构化、半结构化数据以及用户行为数据的场景下,传统数据库服务器的存储和计算能力越来越力不从心。综合以上两种情景,催生了证券公司数据中心迁移的需求。

  2.数据中心迁移的目标

  数据中心系统迁移目标如下:

  (1)提升数据中心系统计算能力

  (2)扩大数据中心存储容量

  (3)平滑迁移,不影响数据中心现有应用和周边系统对接

  (4)建立大数据平台,支持数据中心存储横向扩展

  3.数据中心迁移的范围

  数据中心的迁移主要是数据库服务器以及存量历史数据的迁移,一般来说ETL服务器、BI服务器以及WEB服务器需要迁移的场景并不是很多,所以本文后续的迁移策略只包括数据库服务器和存量历史数据的迁移,不涉及ETL、BI、和WEB服务器的迁移。

  三.数据中心迁移的影响

    1.应用关联影响

  通常来说,数据中心的迁移不影响上游的所有OLTP系统而对依赖数据中心提供数据服务的下游各类OLAP系统影响较大。下游各应用系统影响如下:

  普通列表项目营销一体化系统:是证券公司投顾以及客户服务的核心,需要优先保证。

  普通列表项目各类报送系统:各类影响证券公司评分评级,需要优先保证。

  普通列表项目风险管理系统:风险管理部应用系统,可适当延后。

  普通列表项目网站等查询系统:是证券公司对外服务的窗口,但是实际上使用频度不高,可适当延后。

  2.业务中断影响

  基于证券行业的交易特性,每年都存在相当多的非交易日。一般来说,数据中心的迁移工作都会放在非交易日进行,所以业务中断的影响较低。若发生不可抗力导致非交易日迁移切换无法完成的情况,需要迅速进行系统回退,保证老系统的正常运行。

  3.迁移风险分析

  数据中心迁移过程中的风险点如下:

  数据丢失风险即在存量数据迁移过程中发生数据遗漏或者损坏,需要在迁移完成之后进行数据比对工作以防止此风险。

  设备损坏风险,即新设备上线过程中可能遭受的物理损害风险。

  网络回流风险,即下游系统未正确切换网络连接,导致仍然访问旧的数据中心请求数据服务。需要在迁移完成之后,关闭旧数据中心网络连接,进行功能测试。

  应用程序对接风险,若数据中心迁移升级到分布式系统,存在下游数据对接无法跟上的风险。需提前确定对应策略,改变数据服务的方式或者搭建一层关系型数据库作为数据服务的中转。

  四.数据中心迁移的策略

    1.数据中心迁移方式

  无论是数据中心迁移到关系型数据库还是分布式数据库中,数据中心的迁移方式都分为硬件设备准备、软件程序安装、增量数据批量迁移、全量数据一次性迁移、配置数据一次性迁移、数据服务接口一次性迁移、数据比对、ETL采集测试、数据服务对接测试、BI应用测试这些迁移内容。

  其中硬件设备准备和软件程序安装独立进行,是整个迁移工作的前期准备事项。数据迁移工作可以采用数据泵或者sqoop导入的形式分别将数据迁移到关系型数据库或者分布式数据库中。数据比对工作通过开发数据比对脚本的形式完成。迁移过程中的应用测试工作采用全仿真环境测试的形式进行,迁移完成之后的应用测试工作采用生产环境测试的形式进行。

  接下来对数据中心迁移工作进行细节阐述。

  2.数据中心迁移步骤

   

 

  图3:数据中心迁移流程图

  从流程图中可以看到,硬件设备的准备和软件程序的安装是整个迁移工作的基础和前提;在此基础上对数据中心中存在的历史数据、快照数据等增量数据进行批量数据导入工作;在批量数据导入的同时,数据中心对接的各应用系统可以使用已导入的数据进行仿真测试,确保数据对接功能和数据应用功能正常;由于证券行业天然存在非交易日概念,所以在数据导入效率可控的前提下,可以挑选某几个连续的非交易日,进行剩余增量数据和全量数据的一次性导入;所有数据迁移工作完成之后,进行应用程序切换和测试,在下一交易日之前确保所有应用程序正常。

  证券公司数据中心系统中的数据包含了结构化和非结构化两种类型的数据。结构化数据迁移需要将关系型数据库中的数据迁移到性能更强的关系型数据库或者分布式数据库中,非机构化数据迁移需要将数据文件从传统文件系统迁移到分布式数据库的大数据平台中。

  3.结构化数据迁移策略

  模式A:数据中心从关系型数据库迁移到关系型数据库

  此种模式下,只需要用数据中心系统所依赖的关系型数据库的数据泵进行数据迁移工作即可,因此不多赘述迁移的步骤和方式。

  模式B:数据中心从关系型数据库迁移到分布式大数据平台

  证券公司数据中心系统中的结构化数据通常采用传统的关系型数据库进行保存,为了可扩展性的需要,大数据平台基本上都采用了非关系型数据库(如NoSQL数据库)。由于关系型数据库和 NoSQL 数据库在数据的查询接口、数据模型、体系结构等方面都存在较大的差异,数据迁移的设计要考虑很多类型转换和兼容性的问题。此模式下涉及到的结构化数据迁移是指将数据从关系型数据库数据迁移到 HBase 表中。

  系统需要定期将证券公司数据中心系统中的结构化数据迁移到 NoSQL 数据库中,以便进行后续的查询和数据处理工作。其过程就是将证券公司数据中心系统的数据库记录导出,并转换成目标格式,保存在 NoSQL 数据库中。迁移的过程分为以下五个部分:

  a.获取源数据库和目标HBase数据库连接信息,以及源数据表字段到目标HBase表的映射关系;

  b.源数据库包含MySQL、DB2、Oracle 等,每个数据库的数据格式都不同,通过采用不同的 JDBC使用 SQL 查询获取数据库数据;

  c. HBase的数据是列式存储的,输出格式为<关键字,时间戳,值>,根据映射,将每条输入记录拼装成多条HBase输出记录;

  d.通过HBase连接信息建立与HBase的连接;

  e. HBase提供了数据插入接口,调用数据插入接口,将步骤c中拼装好的数据插入到指定的HBase表中。

  模式B下也可以采用开源数据传递工具sqoop进行数据迁移,该迁移模式等同于使用数据泵进行数据迁移,方案中不再过多阐述。

  4.非结构化数据迁移策略

  模式A:数据中心从关系型数据库迁移到关系型数据库

  此种模式下,非结构化数据依然以传统文件系统的形式存在,使用批处理命令即可完成非结构化数据的迁移。

  模式B:数据中心从关系型数据库迁移到分布式大数据平台

  现有Hadoop数据迁移工具Flume使用较多, Flume 是一个分布式、可靠的日志聚合的系统,它可以在系统中定制各种类型的数据发送方,将数据收集到一个节点上。Flume 的优点是使用简单,上传的文件可以按照大小、行或者是处理的时间分割为多个文件。但是在 Flume-ng 版本中,每个数据源只能有一个文件,而实际情况是要将多个在线存储平台的服务器中的文件夹整体都迁移到 HDFS 的指定目录下。如果采用 Flume,将需要针对每个文件设置一个配置文件,实现过于繁琐。

  针对Flume中存在的问题,可以采用Apache VFS实现不同文件系统间非结构化数据迁移。该方式与Flume相比,实现更加灵活。首先根据配置获 取源数据、写入目标数据位置信息,然后根据数据不同类型获取单个文件或目录下所有文件列表,最后将迁移的文件写入到目标地址中。迁移的过程分为以下五个部分:

  a.根据迁移程序设置获取源、目标数据地址等相关信息,主要包括数据类型信息,分为两种:文件和目录信息;

  b.根据源数据配置信息判断数据类型,如果是文件直接读取该文件内容,如果是目录则递归获取目录所包含该目录下所有文件信息;

  c.如果数据类型是目录方式则判断目标目录,如果不存在则创建目标目录;

  d.通过调用HDFS接口,在指定位置创建文件并写入数据;

  e.通过以上的步骤,只需要在迁移程序配置源、目标位置信息,就可以实现业务平台的非结构化数据迁移到大数据平台的HDFS中。

  5.总结数据中心系统在证券公司各项IT系统的中定位,决定了数据中心的迁移不会是一个简单的工作,需要全盘考虑到数据中心对整个IT系统的影响。

  本方案通过分析数据中心的定位,对数据中心迁移的背景、目标、范围的阐述,考虑到数据中心迁移对关联应用的影响程度,确定了数据中心迁移的策略和步骤。通过本方案,无所是将数据中心做存储和计算服务的升级,还是将数据中心从传统关系型数据库迁移到分布式大数据平台,都有清晰的应对方式。希望本方案能对证券公司数据中心系统的迁移工作起到一定的启发和借鉴作用。

  作者简介 朱仲春 恒生电子股份有限公司 风险管理事业部 部门经理

            苏杭 恒生电子股份有限公司 风险管理事业部 数据中心产品经理

相关链接:

·基于星环TDH大数据平台构建新一代券商数据中心
·大数据在证券行业客户分析中的应用
·智能金融如何改变证券业
·数据中心云在证券业中的探讨
·证券IT的价值和困局
·证券行业敏感信息保护体系的分析与设计
·证券市场云平台基础架构解析
·智能投顾的发展现状和未来发展趋势

作者:朱仲春 苏杭 来源:上交所技术服务 发布时间:2018-01-04 10:43:49
 
 
  我要发表留言  查看所有评论
 

*
 限制字数显示剩余字数,最大长度: 500 还剩: 500
用户名:
       尊重网上道德,承担一切因您的行为而直接或间接导致的民事或刑事法律责任