如何在征信工作中开展数据治理

发布时间: 2017-09-25 08:52:41   作者:谭锦杰   来源: 本站原创  

数据治理在银行、保险等信息技术基础较好的行业里应用较为成熟,它能为所在行业的数据管理提供组织、制度、规范、工具和技术的支持。数据治理与数据管理相比较,两者相似之处在于都是以提高数据质量为目标;差异在于数据管理更多地关注数据在收集、存储、处理、应用和变化等技术过程中对质量的影响,而数据治理则更关注组织在顶层设计上对数据质量的影响。

本文作者以自身征信行业数据治理实践为基础,提出关于在征信中开展数据治理工作的一些思考。

一、征信行业开展数据治理的必要性

当前,国家在征信业中发布了多项法律法规,对征信机构、信用信息等提出了工作要求。如《征信业管理条例》(以下简称“《条例》”)明确要求征信机构的业务规则及法律责任、信息准确性等内容;《征信机构信息安全规范》明确要求征信机构需要满足的安全管理、安全技术等内容。同时,征信机构数据存在信息项缺失、数据更新不及时、信源数据质量不高、缺少数据标准、缺少统一主数据等问题。

鉴于征信业的法律法规要求以及目前征信机构数据存在的问题,有必要在征信机构中开展数据治理,通过在组织顶层设计建立相关的制度规范使得征信机构能够在满足不同法律法规的条件下更优质的开展服务;通过在组织上建立专门数据治理部门,使得征信机构能够在信用数据的采集、加工、整理、保存等环节形成更规范的处理流程,持续的提高征信机构的数据质量。

二、数据治理体系

在征信工作中,实施数据治理必须配套建立数据治理体系,为数据治理体系提供运行支撑。

(一)数据治理结构

通过分析与信用相关法律法规要求,成立专门的数据治理部门,统筹组织与数据治理相关工作;通过分析数据治理部门的各职能划分要求,为各职能组成制定制度规范;通过建立组织级的数据中心,对组织所有信用数据进行总体管控;通过建立平台工具,使得制度规范的开展能够真正落地,使得信用数据的管理可视化,提高数据治理的效率。因此,数据治理结构可分为:组织机构、制度规范、统一数据中心和平台工具四部分。

(二)组织结构

建立专门的组织结构负责数据治理工作,主要包括数据治理委员会、数据资源组、数据质量组、信息安全组、制度规范组、数据处理组、技术支持组、运营服务组和其他服务组等。

1.数据治理委员会

属于虚拟部门,与其他部门一齐做决策,保障数据治理能够持续运作。

2.数据资源组

负责进行信源的开拓,包括:政府部门、互联网、协会等不同采集渠道;同时,需要与制度规范小组协同制定与信源开拓相关的制度规范。

3.数据质量组

负责进行信源数据质量管理以及信用数据处理全过程的质量管理;同时,需要与制度规范小组协同制定与数据质量相关的制度规范。

4.信息安全组

负责为组织的信息安全提供技术支持;同时,需要与制度规范小组协同制定与信息安全相关的制度规范。

5.制度规范组

负责与其他各组一并制定与组织数据相关的制度规范。

6.数据处理组

根据《条例》描述征信机构开展业务活动,负责信用数据的采集、整理、保存、加工并提供等数据处理工作。除技术处理工作外,数据处理组还需要与制度规范组一起制定与数据处理相关的标准规范以及按要求提炼与信用数据处理各活动相关的经验总结。

7.技术支持组

负责为数据治理提供技术支持的,如:数据处理的技术支持、平台工具技术支持等。同时,还需要与制度规范组一并制定与技术开发、实施等相关的制度规范。

8.运营服务组

负责提供与信用相关的信用服务运营,如:提供异议服务、信用报告等。

9.其他服务组

以上小组相互配合,共同为开展数据治理工作提供服务,除了上述需要设立的小组外,还可以按需设立为完成特定工作的小组。

(三)制度规范

根据数据治理组织结构,结合征信工作及征信法律法规以及相关国家标准、地方标准要求,建立相应的制度规范,保障数据治理工作的开展。

1.数据资源组

参考《GB/T 22118-2008 企业信用信息采集、处理和提供规范》、《GB/T 22120-2008 企业信用数据项规范》、《GB/T 22117-2008 信用  基本术语》等国家标准,制定与数据采集相关的制度规范。

2.数据质量组

参考《GB/T 22118-2008 企业信用信息采集、处理和提供规范》、《GB/T 22120-2008 企业信用数据项规范》、《GB/T 26819-2011 信用主体标识规范》等国家标准,制定与信用数据采集、信用数据处理等过程的数据质量规范。

3.信息安全组

参考《GB/T 20009-2005 信息安全技术 数据库管理系统安全评估准则》、《GB/T 20269-2006 信息安全技术 信息系统安全管理要求》等国家标准,建立以信用信息安全管理、信用信息技术安全等管理规范。

4.数据处理组

参考《GB/T 22118-2008 企业信用信息采集、处理和提供规范》、《GB/T 31952-2015 企业信用档案信息规范》等国家标准,建立围绕信用信息加工、整合、提供等过程的管理规范。

5.技术支持组

参考《GB/T 22118-2008 企业信用信息采集、处理和提供规范》、《GB/Z 18219-2008 信息技术 数据管理参考模型》、《GB/T 18903-2002 信息技术 服务质量:框架》等国家标准要求,围绕信用信息接口、应用集成、软件开发等建立相关的技术规范。

6.运营服务组

参考《GB/T 26817-2011 中文名称: 企业信用调查报告格式规范 基本信息报告、普通调查报告、深度调查报告》、《GB/T 31870-2015企业信用评估报告编写指南》、《GB/T 31953-2015企业信用评估报告编制指南》等国家标准,围绕信用运营而设立包括异议服务、信用报告等在内的规范。

(四)统一数据中心

建立全组织的数据中心,开展信用数据的统一管理,是有效开展数据治理的前提,根据数据治理设定的数据规则对全组织信用数据进行统一处理。统一数据中心至少包括以下6个层次结构:

1.信用主数据库

属于业务库的一部分。根据信用主体类型,存储组织各部门、各应用的统一信用主体身份信息,并提供信用主体唯一身份信息识别,减少发生信用主体相互矛盾(冲突)的可能性。

2.信源数据库

属于业务库的一部分。存储从各信源单位归集的原始信用数据,它是数据中心的数据源头,各信用应用都可从信源数据库匹配到原始数据。

3.档案数据库

属于业务库的一部分。存储信用主体的信用档案,以信用主体为维度,提供某个信用主体的总体信用状况总括信息以及明细信息。

4.应用数据库

属于业务库的一部分。以应用为基础,按照信用应用主题分析和数据建模等维度,建立相应的分析模型,满足不同信用应用要求。

5.规则库

存储各数据治理规则的配置信息,如:数据校验的规则,信源数据处理的规则等。

6.备份库

用于为数据中心其他各库,提供按照数据归档、数据备份要求定期备份已失效或者已过期的数据服务。

基于上述基础数据库,在征信工作开展过程中,还可以按需建立相应的数据库,如用于统计分析类的指标库。

统一数据中心除了可以为组织提供信用数据统一存储外,还可以提供信用数据的统一整合、建模、分析服务。

1.统一整合服务:整合来自不同外部数据源、内部数据源的信用数据,使得各数据源之间的信用数据能够形成一个有机整体。

2.统一建模服务:结合组织不同的信用主题、信用应用要求,为组织提供统一数据建模服务,并根据数据模型,完成相应的数据加工处理。

3.统一数据分析服务:根据信用主题、信用应用要求,结合业务部门提出的数据分析要求,提供不同类型的数据分析服务,如:地区行业信用指数分析。

除上述服务外,统一数据中心还可以与平台工具对接,使得统一数据中心的管理及使用工具化、产品化。

(五)平台工具

为数据治理提供工具支撑,依据数据中心的划分、数据治理过程,平台工具需要包括以下类型:

1.主数据管理系统

为主数据提供界面管理,使得用户能够直接通过前台界面便捷管理主数据,主要包括以下功能:

n  信源主数据管理。提供对信源主数据管理功能,包括:信源主数据导入、导出、更新、作废、查询等常规功能,还提供对信源主数据的识别、更新等规则的管理维护功能。

n  信用主体主数据管理。提供对信用主体主数据管理功能,从信源主数据形成信用主体主数据的管理维护功能,包括:信源主数据与主数据的匹配、更新、导出、查询等常规功能,还提供对主数据生成的规则配置、映射配置等管理维护功能。

2.目录管理系统

提供与信用目录相关的功能,主要包括以下功能:

n  编目管理。参考国家相关标准规范,对整个编目过程进行管理,包括数据元、信息类等数据的维护和编目流程的管理。

n  目录浏览。查看最新发布的目录信息,包括目录的结构、目录的信息类、数据项,以及目录属性等信息。

n  目录统计。提供从目录维护、目录服务的维度进行统计, 以图表的方式直观的展示统计结果。

3.数据处理系统

提供与数据治理以及数据处理相关的系统功能支撑,主要包括以下功能:

n  数据归集。为不同信用数据源的数据报送方式提供功能支撑,支持常用的数据归集方式,如:文件归集、自动化归集(如:WebServices接口)、网络数据抓取等方式,为信用数据归集的模板、归集任务、查询、异常处理等提供统一功能界面。

n  数据比对。为归集入库的信用数据提供数据比对功能,使得原始信用数据之间能够相互形成关联关系,为信用数据比对的比对规则、比对条件、比对结果查看、异常数据处理等提供统一功能界面。

n  数据加工。根据信用档案的建设要求以及各类信用主题、信用应用要求,提供数据加工功能,为各类数据加工提供统一加工规则配置、查看加工结果等功能。

4.数据质量管理系统

为数据中心的信用数据提供质量保证,主要包括以下功能:

n  数据校验。为数据中心各业务库提供不同类型、不同方式的校验功能支撑,主要功能包括:各数据库信用数据校验规则配置、查看、维护、数据校验等功能。

n  异常数据处理。提供数据校验出现异常的信用数据进行处理,提供在线修复及离线修复等功能。

n  规则异常百分比统计。自动统计最近数据校验出现异常情况较多的规则,并提供警告,能够给提供用户提醒规则是否满足要求的便利。

n  生成质量报告。根据数据校验结果、异常数据处理情况、规则异常百分比统计等情况,提供给用户按照时间、数据中心、应用模块等维度的质量报告生成功能。

三、征信业务中开展数据治理实例介绍

以数据采集为例,从数据治理部门相关小组接收需要采集某个信源需求为起点,到最终提交给用户使用为终点,需要迭代经过以下过程:

a)   接收并分析用户提出的数据采集需求。

b)   视已有规范满足度情况,编制与目录及信息相关规范。

c)   依据规范编制采集目录。

d)   依据采集过目录进行数据建模。

e)   按要求预置采集及校验等规则。

f)   按要求把信源数据采集到统一数据中心。

g)   统一数据中心按要求进行后续数据分析处理,最终生成目标数据。

h)   按用户要求,对目标数据提供不同的展示方式。

i)   用户根据展示结果,提出后续的优化及跟进需求。

j)   根据用户提出的新需求进行跟进(重复前面的过程)。

从上述例子可以看出,不同的应用场景数据治理各组成部分承担的职责及顺序是不一样,但有一点是肯定的:数据治理各组成部分在每一个应用场景中都是相互协同,发挥各自的作用。

、总结

数据治理宣贯的是为了提高数据质量而进行的全组织统一处理,属于全局的工作,是一个闭环过程,各组成部分在数据治理闭环中,为提高数据质量承担不同的角色,获得不同的受益,他们共同的目的是:“使信用数据干净可用”以及“保持信用数据干净可用”,使得信用数据能够形成一个常态化的闭环数据流动,并使得信用数据能够持续、有效、正确的更新。