请选择 进入手机版 | 继续访问电脑版
当前位置: 首页» 产品介绍» 经典案例»中国农业银行大数据平台项目——海量数据复杂运算处理

中国农业银行大数据平台项目——海量数据复杂运算处理

2017-10-11 18:10| 查看: 496

项目背景

随着互联网和“大数据”时代的来领,传统银行如今面临来自其他领域的跨界挑战前所未有。如何转变思维,唤醒沉睡的数据,建立强大稳定的数据分析系统,开发创新数据应用,实现经营转型,是银行业“大数据”时代迫在眉睫的任务。同时,也是农业银行在转变经营思路的过程中,一直思考的问题。

中国农业银行数据仓库项目最初是基于Sybase IQ建设的,主要应用于统计报表。随着数据量的不断增大、接入的系统越来越多,Sybase IQ由于性能的限制,已经很难在指定的时间窗口中完成数据统计分析工作,也无法继续接入其它的业务系统数据,无法满足银行内部数据分析和监管机构的监管数据要求。系统架构的障碍影响了农行从宝贵的数据资源中挖掘价值,寻找新的、更先进的产品构建核心数据仓库成为农行迫在眉睫的任务。

为了应对上述问题,农行着手构建新型大数据平台时提出了以数据是基础,治理是保障,技术是支撑,分析是关键,应用是目标的原则,核心目标是实现数据价值在业务应用中转变为生产力,构建数据价值利用的有效闭环,真正实现从数据支撑到数据运用的转变。在此过程中,需要对数据治理,提高数据质量,从而更好地满足数据挖掘需求,为数据价值在业务中的深入应用夯实基础。


需求分析

农业银行作为典型的数据密集型单位,数据的重要性日益凸现:一方面,数据是其信息化的核心,是保障银行正常运转的关键,对数据库系统的稳定性和安全性有着十分苛刻的要求;其次,数据是宝贵的资源和财富,体量增长非常迅速,新构建的数据仓库系统必须具备对新生数据进行及时处理,计算和管理的能力。其主要需求,概括如下:

(1)   解决海量数据快速运算与管理的问题:

能够支持PB级以上数据、超过万亿行的数据库表、可以支撑每天处理4000个以上的复杂作业处理能力的并行数据库产品(本条目中的性能指标为2014年项目启动之初的原始需求,目前已经构建的数据仓库系统性能指标远远大于如上数据)。

(2)   系统需要灵活可扩展:

要求系统能够具有不断的线性可扩展的能力,具备较高比例的数据压缩能力,从而能够保障系统随着数据的增长而线性扩展。

(3)   安全稳定:

数据仓库系统必须安全稳定,具备7×24小时不间断提供服务的能力,保障上层业务系统稳定运行;

MPP数据库需要具备强大的备份和容灾能力,能够保障数据本身的安全,杜绝因故障引起的任何数据丢失的可能。

(4)   开放可靠:

   能够基于x86Linux开放平台搭建;

产品厂商需要具有强大的本地支持团队,能够为客户提供及时的、全方位的服务。


解决方案

农行数据仓库架构如下图所示,由数据来源层,数据处理层,模型指标层,数据集市层,分析展示以及应用门户层组成。



数据来源层:

最下层为数据来源层,数据来源层包括新一代核心银行系统、综合应用系统、客户管理系统、贷记卡、银行卡、电子银行、反洗钱征信和财务系统等78个源系统,分别按照一定时间窗口,进行全量/增量数据加载,要求满足T+1需求。目前,数据来源层共计上万张表,最大表超过千亿行。

返回顶部