如何实现成功的数据治理?

从技术实现的角度来看,数据治理包括五个步骤,即梳理业务和数据资源、数据收集和清理、数据库设计和存储、数据管理和数据使用。

整理数据资源:数据治理的第一步是从业务角度明确组织的数据资源环境和数据资源列表,包括组织、业务事项、信息系统以及数据库、网页、文件和API接口形式的数据项资源。这一步的输出是分类的数据资源列表。

数据收集和清洗:通过可视化ETL工具将数据从源提取、转换和加载到目的地的过程,目的是将分散杂乱的数据集中存储。

基础主题库建设:一般来说,数据可以分为基础数据、业务主题数据和分析数据。基础数据一般指核心实体数据,或者说主数据,比如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。专题数据一般指某项业务的专题数据,如食品监管、质量监督检验、企业综合监管以及市场监督管理局的其他数据。分析数据是指基于业务主体数据综合分析的分析结果数据,如市场监督管理局的企业综合评价、行业区域分布、高风险企业分布等。那么基础库和主题库的建设就是本着易存储、易管理、易使用的原则提取数据存储结构。说白了就是按照一定的原则设计数据库表结构,然后根据数据资源列表设计数据收集和清洗流程,将干净的数据存储在数据库或数据仓库中。

元数据管理:元数据管理是对基础数据库和主题数据库中数据项属性的管理。同时将数据项的业务含义与数据项关联起来,使业务人员能够理解数据库中数据字段的含义。此外,元数据是后面提到的自动数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般管理基础库和主题库中数据项的属性(即核心数据资产),而数据资源列表管理来自各种数据源的数据项。

亲属关系追踪:在业务场景中使用数据时,发现数据错误,数据管理团队需要快速定位数据源并修复数据错误。然后数据治理团队需要知道业务团队的数据来自哪个核心库,以及核心库的数据来自哪个数据源。我们的做法是建立元数据和数据资源列表的关联关系,业务团队使用的数据项通过元数据组合进行配置,从而建立数据使用场景和数据源头的亲缘关系。数据资源目录:数据资源目录一般用于数据共享场景,比如政府部门之间的数据共享。基于业务场景和行业规范创建数据资源目录,同时依托元数据和基础库主题,实现数据自动化应用和使用。

质量管理:数据价值的成功发掘必须依靠高质量的数据,只有准确、完整、一致的数据才能被使用。因此,需要从多个维度来分析数据的质量,如偏移、非零值检查、范围检查、规范性检查、重复性检查、相关性检查、异常值检查、波动性检查等等。应该注意的是,优秀数据质量模型的设计必须依赖于对业务的深刻理解。技术上,也建议使用大数据相关技术,保证检测性能,降低对业务系统的性能影响,如Hadoop、MapReduce、HBase等。

商业智能(BI):数据治理的目的是使用。对于大型数据仓库来说,数据使用的场景和需求是多变的,可以使用BI产品快速获取所需数据并分析形成报表。比如派克数据,属于专业BI厂商。

数据* * *共享与交换:数据* * *共享包括组织内部和组织之间的数据* * *共享,* * *共享也分为库表、文件、API接口三种方式。库表* * *共享比较直接,文件* * *共享可以通过ETL工具逆向数据交换实现。我们推荐API接口* * *共享模式。这样,中央数据仓库可以保留数据所有权,并通过API接口转移数据使用权。API接口* * *可以通过API网关实现,常见的功能有接口自动生成、申请审核、流量限制、并发限制、多用户隔离、通话统计、通话审计、黑白名单、通话监控、质量监控等等。