数据治理和数据管理
简单来说,治理就是管理的管理。
你要遵循一定的标准体系,一定的流程,一定的角色分工,这些内容都要通过数据治理明确定义。管理层只是按照数据治理的标准体系履行管理和监督的职责。
现有管理执行的基础是治理标准体系。
如下图:
数据桌面和数据湖
这个不太好解释清楚,我就尽量简化一下。
数据湖一般是公有云服务商提出的概念,即企业所有的结构化和非结构化数据都可以收集存储在me中。这个湖是一个大型储存站。这个存储是分布式的,可以无限扩展,存储的数据不会被清理处理,尽量保持原样。
存储后,数据湖提供了一些标准的开放接口供你使用数据,包括查询SQL接口、计算引擎接口、流处理接口等。提供的接口目的也很简单,你可以方便的使用你存储的数据。
湖中数据的存储一般是分布式对象存储或分布式文件存储。即使从结构化的数据库中采集数据,仍然会转换成统一的存储方式,方便扩展。
简而言之,数据平台就是企业共享数据的能力下沉并对外开放。
中间数据平台包括底层数据技术平台(可以是我们熟悉的大数据平台能力),中间数据资产层,上层数据层对外开放能力。
核心资产层本身也是分层的,从最底层的源数据,到领域应用数据,再到上层的数据仓库和数据标签库。数据湖更对应于数据中心概念中的数据源层。
实际上,企业在建设数据中间站时很少使用“数据湖”的概念。
两者之间的对比映射如下:
数据中心
对于数据中心这个词,它经常出现在BI系统应用中。
但现在的数据中心一般指IT基础设施、大型公有云数据机房等。,而且这个词很少用在BI系统或者数据中心。也就是数据中心这个词偏向于IT硬件基础设施。
例如,下图通常指的是硬件和网络基础架构。