当前位置:综合财经 > 正文
知识图谱在金融科技中的应用

  一、知识图谱技术解析

  知识图谱技术是一种语义网络,通过基于图的数据结构来存储知识。计算机科班的人都不会陌生数据结构这门必修课。数据结构就是数据组织的方式,像链表、数组、堆栈、树、图、散列都是数据结构。其中“图”结构就是知识图谱的组织结构。

  大数据意味着全量数据,而人工智能将全量数据中多维信息组织在一起进行决策。可以看出,知识图谱是大数据+AI的典型应用场景之一,可将结构化、半结构化和非结构化数据统一,从而实现信息融合。这种应用具有以下特点:

  是一种多元数据的整合

  提供了组织更有深度和广度的知识体系的结构

  能够支持XML这种半结构化、标签式的表现形式

  早期的知识图谱主要以一种表现自然语言的工具形式呈现。后来逐渐发展到知识工程、信息存储、信息检索等领域。随着语义网的提出,通过语义标签体系将信息组织成为趋势,这样可以通过语义的深度层层递进,提升了检索的精准度和广度。所以Google提出知识图谱的概念之前,知识工程体系就已经发展的很成熟了。

  随着金融科技的发展,知识图谱这种技术也越来越多的应用到金融场景当中。就目前我接触到的金融机构来说,银行、证券、保险等公司均筹划或已经初步构建了基于知识图谱技术的应用体系。

  二、知识图谱技术框架

  构建知识图谱的技术体系主要为图存储和图计算。图存储即基于图数据库或RDF存储方式,将实体之间的关联关系存储到数据库中,其本质也是一种NoSQL(非关系型数据库)。例如,如果你想存储一个股权投资之间的关系网,实现投研分析的应用,那么使用图数据库是比较理想的方式。因为如果用传统关系型数据库来存储,意味着需要构建多张表来存放实体之间关系。在执行一个简单查询时,需要扫描所有关联表,这个开销时非常大的。另外,如果关系网中新增多个实体,意味着又需要增加多张表,又会带来更大的性能问题。

  而图数据库通过结点集合和连接结点的关系表示。通过将RDBMS中的关系进行网络规范化处理,图数据库将结点与结点关系进行范式化,在结点与结点之间构成有向关联关系,从而实现关系属性的存储,提高查询效率。实际运用中像Neo4j、OrientDB、Titan等均是一些明星图数据库框架。

  基于Neo4j图数据库的数据结构

  解决了图数据存储和查询的问题,在实际应用中另一个需要考虑的技术是图计算框架,例如Pregel, Spark GraphX。图计算是一种迭代式计算方法,需要解决图形结构中每个结点的计算问题。图计算框架构建于图存储之上,用于实现图遍历、PageRank计算、最短路径查询、图数据挖掘等功能。

  当前知识图谱服务的核心技术以图存储和图计算为主,其他还需要结合数据采集、分布式存储、非结构化数据处理、搜索服务(如ES)等等。事实上,作为人工智能认知层中的关键模块,知识图谱提供了多元数据服务的输出能力,也是当前AI在金融业中的主要应用创新方向之一。

  三、知识图谱在金融科技中的应用

  金融机构在信息膨胀的时代面临着海量、多维数据的冲击,需要新的数据存储和计算框架的应用创新;同时数据资产管理也成为一种新意识,如何从数据挖掘价值即是命题又是任务。在这种形势下,金融机构内部数据网络、数据云的构建愈发重要。而数据云服务(有时候也称为DaaS, Data-as-a-Service)中重要的组成部分即知识库服务。

  知识图谱在金融科技中的应用逐渐广泛,我涉及过的一些在银行、证券、基金等机构中主要的应用场景如产业链分析、担保链分析、情感分析、业务知识库等。

  产业链分析

  产业链建模分析主要给证券、基金行业的行业研究员、基金经理、量化投资者提供分析框架。由于产业链本身就是各产业部门之间的技术经济关联,并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态,所以天然比较适合于用知识图谱这种图结构来展示。

  知识图谱应用于产业链分析能够帮助行业研究员和基金经理透析整个行业、领域的技术与经济传导关系,实现概念发掘、事件影响分析、行情分析。目前市场上做这一部分的机构和公司逐渐多了起来,不过我觉得难点很多。核心问题是覆盖整个产业链上下游的公司、产品、事件因子异常庞大,其本质问题转化成了一个数据质量问题——即数据的完整程度决定了产业链知识图谱的完整程度。举例来说,假设我要对零售行业像苏宁云商这种个股进行产业链分析,需要关注企业链、价值链、供需链和空间链四个维度,从产品研发、原材料与设备、仓储管理、市场营销、销售物流、渠道分销、终端服务等各个环节的数据情况。这还只是零售行业的一个细分领域,一旦涉及到全行业,数据的运营、持续更新问题难度就更大。所以数据运营也成为产业链建模核心难点。

  担保链分析

  担保链是多个企业在向金融机构融资时,通过互相担保、连环担保、联合担保等担保关系链条形成的特殊利益共同体。企业之间的债权债务复杂隐蔽,一旦某些企业发生违约就会引起区域或行业的系统性风险,所以目前银行业对担保违约现象的量化评估很困难。而且这种担保链条存在传染特性,任何一个企业出问题,风险都会传播,所以担保链风险也是银行信贷业务管理中的难点和痛点。

  担保链形成的网状结构较为复杂,但基本有迹可循,可通过担保网络的类别形成如下几类:单向担保、互联互保、循环担保、复杂担保、融资担保、平台担保等。而分析网状结构的方法主要是社交网络分析:即网络中每个节点可以看作借款人和担保人,网络中的每条边作为担保关系和担保方向。

  模型:针对商业银行构建担保链的方法主要是Modularity模型,也就是Community Detection,反映了群体(子网络)内部相对外部的连接密度,通过迭代式算法不断划分,最终形成担保网络。

  分析:主要方法可以归纳为:结合不同担保网络的风险系统,通过违约历史,识别风险最大的担保链。然后,通过担保网络的风险指标,量化核心企业的风险指标,识别风险最大的企业。

  识别:分析风险集中度较高的核心企业和风险扩散度较高的核心企业。结合多维度的借贷和担保信息,如风险等级、担保类型、贷款流向、行业分布等,多方面了解担保风险情况。

  用户画像与情感分析

  用户画像有很多种做法,除了传统的客户标签和360视图之外,知识图谱能更好的反应与用户相关的关系、事件、行为等因子,使画像更具有结构化、动态化的过程。结合这些实时、动态、结构化的基础画像服务,为客户分类、精准营销、智能投顾、流失预警、适当性管理、反欺诈等上层应用提供基础。

  用户画像的另外一个维度是情感分析。在社交网络、舆情与论坛中通过自然语言处理和语义分析,能够实时感知到群体与个体的情绪变化,反映到市场上可以作为刻画投资者情绪的情感图谱。情感分析的意义在于动态刻画投资人对于市场、公司、事件的认知和感知,能够部分反映走势与预期,这一部分目前在交易所、证券公司均有研究。

  智能知识库

  智能业务知识库目的在于构建机构内部的知识管理,能够对知识的业务特性、角色、访问权限等知识体系和属性进行分类,提供知识体系结构。也可以通过人工智能和机器学习将问题场景与业务知识进行自动关联分析。智能知识库是一种混合了智能问答、知识图谱、语义搜索等场景的综合服务,在机构中通常作为中间件形式存在,底层与大数据和机器学习平台对接,相当于内部构建了问答式的业务维基百科,属于人工智能在业务流程优化、数据服务上的创新应用。

(文章略有删减)

相关链接:

作者: 陈祖峰 来源:金融科技顾问 发布时间:2017-11-28 06:09:09
 
 
  我要发表留言  查看所有评论
 

*
 限制字数显示剩余字数,最大长度: 500 还剩: 500
用户名:
       尊重网上道德,承担一切因您的行为而直接或间接导致的民事或刑事法律责任