大数据为生命周期管理带来挑战


大数据为生命周期管理带来挑战

无论数据的规模和类型是什么,它们必须要在生命周期中接受管理,即便管理工具并不成熟也必须如此。

伴随着大数据的出现,整合的生命周期管理(Integrated Lifecycle Management,简称为ILM)遇到了一个全新的领域。核心挑战来自三个方面:首先大数据的规模没有上限,其次许多新数据的生命周期都极为短暂,再次由于数据或多或少具有大数据的3V特征(数据规模大、处理速度快和数据种类繁多)因而难以保持始终如一的品质。

以上这些是我从Loraine Lawson所写的文章中总结出来的。她的观点与我对这一问题的总体看法基本一致。但是我并不认同她关于“与小型数据分析环境相比,ILM对于大数据环境来说更为重要”的说法。无论是以前,还是进入到了大数据时代,让所有的商业数据资产处于安全、可控和受管理的状态都同等重要,它们之间的重要性没有发生丝毫的改变。

它们之间的不同之处在于,在大数据环境中,由于以下几个方面正在迅速发生变化,使得全面的ILM越来越难以确保数据资产处于安全、可控和受管理的状态之下。

■新的大数据平台:除了MPP 关系型数据库系统、纵列数据库、多维数据库外, Hadoop、NoSQL、内存数据库、图形数据库等新的技术平台逐渐在企业计算环境中发挥越来越重要的作用。现有的ILM工具几乎不可能支持这些新的平台。同时,为了能够在公有云上处理大数据,你可能需要使用由服务提供商提供的ILM功能。为了降低在新环境中的风险,以及维护核心数据的高度可信性,你需要仔细测试新的大数据平台,以确保它们具备ILM功能(数据安全、管理、归档和保留),以及这些功能是否与你计划赋予它们的角色相对应。

■新的大数据主题域:大数据并没有改变企业对存储和管理办公系统(例如客户、财务和人力资源等)记录的数据管理枢纽的需求。这些是现有企业级数据仓库(EDW)的功能。目前大部分EDW是运行在传统的基于关系型数据库系统的数据平台上,并集成有功能强大的ILM。不过,这些记录数据域系统可能无法在最新的大数据平台上运行,因为许多平台已经将重点放在了处理由社交、事件、传感器、点击流、地理空间,以及其他新来源所产生的新数据之上。然而,这些新的数据域通常生命周期都非常短。从这个意义上说,我们可能不需要将其中的大部分数据保存在永久性记录系统中。

■新的大数据扩展:大数据并不意味着你的新平台能够支持无限大的容量、极高的速度或无数的数据种类。由于受到技术上和经济上的束缚,新数据的庞大规模导致它们不可能被随意存储在任何地方。这一现实将迫使大数据管理人员将更多的精力放在调整多温度存储管理、归档和保留策略上。随着大数据环境的扩展,你需要确保ILM需求不超过现有容量(存储容量)、速度(带宽、管理器和存储速度)和类型(元数据深度)所能支持的范围。

此外,我还与一些专家进行了探讨。这些专家认为,除非我们真的想删除数据,否则大数据革命可使我们无需删除任何数据。目前大数据看起来似乎将持续以指数级速度增长,并且大数据平台的成本似乎也将持续大幅下降,但是我对大数据云的执行和管理将跌至接近零成本的观点存在严重怀疑。

如果我的预感正确,那么我们将无法阻止大数据源源不断的涌到云上——即便我们想阻止也无能为力。幸运的是,生命周期管理能够为无用数据划上一个终点,而这正是我们将ILM摆在需求第一位的关键原因。

数据 是一种表示方法,它代表的是除自身以外的事物(Chisholm,2010)。数据既是对其所代表对象的解释,也是必须解释的对象(Sebastian Coleman, 2013)。

数据: 信息的原材料。

信息: 在上下文语境中的数据。

举例:“这是上季度的销售报告”(信息)。它基于数据仓库中的数据(数据)。下一季度,这些结果(数据)将用于生成季度绩效指标(信息)。

组织内部在数据和信息之间画一条线,可能有助于清晰地沟通不同利益相关方对不同用途的需求和期望。认识到要为不同的目的准备数据和信息,将使数据管理形成一个核心原则:数据和信息都需要被管理;如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量。

数据驱动是指使用事件触发和应用分析来获得可操作的洞察力;同时要认识到必须通过业务领导和技术专业知识的合作关系,以专业的规则高效地管理数据。

数据管理也必须平衡战略和运营需求。这种平衡最好是遵循一套原则,根据数据管理的特征来指导数据管理实践。

数据价值: 是上下文相关的(对一个组织有价值的东西可能对另一个组织没有价值),而且往往是暂时的(昨天有价值的东西今天可能没有价值)。

在数据管理方面, ,因为组织需要从财务角度了解资产,以便做出一致的决策。

数据质量:

低质量数据的成本主要来源于: 1)报废和返工。2)解决方法和隐藏的纠正过程。3)组织效率低下或生产力低下。4)组织冲突。5)工作满意度低。6)客户不满意。7)机会成本,包括无法创新。8)合规成本或罚款。9)声誉成本。

高质量数据的作用包括: 1)改善客户体验。2)提高生产力。3)降低风险。4)快速响应商机。5)增加收入。6)洞察客户、产品、流程和商机,获得竞争优势。

元数据 描述了一个组织拥有什么数据,它代表什么、如何被分类、它来自哪里、在组织之内如何移动、如何在使用中演进、谁可以使用它以及是否为高质量数据。

在数据生命周期中,不同阶段由不同团队进行不同的管理。数据管理需要系统规划的设计技能、管理硬件和构建软件的高技术技能、利用数据分析理解问题和解释数据的技能、通过定义和模型达成共识的语言技能以及发现客户服务商机和实现目标的战略思维。

数据生命周期: 包括创建或获取、移动、转换和存储数据并使其得以维护和共享的过程,使用数据的过程,以及处理数据的过程。 见下图1-2。

数据管理对数据生命周期的关注有几个重要影响: 1 是数据生命周期中的 ;2 必须贯穿整个数据生命周期;3 必须贯穿整个数据生命周期;4 数据管理还包括 ,并 。5 数据管理工作应聚集于 ,将数据ROT(冗余的Redundant、过时的Obsolete、碎片化的Trivial)降至最低。

数据分类: 按数据类型分类(例如划分为交易数据、参考数据、主数据、元数据,)或者类别数据、源头数据、事件数据、详细交易数据;也可以按数据内容(如数据域、主题区域)、数据所需的格式或保护级别、存储或访问的方式和位置进行分类。

数据管理需要: 设计技能、高技术技能、理解问题和解释数据的技能、语言技能、战略思维。

数据战略: 应该包括使用信息以获得竞争优势和支持企业目标的业务计划。数据战略必须来自对业务战略固有数据需求的理解:

数据管理战略的组成应包括: 1)令人信服的数据管理愿景。2)数据管理的商业案例总结。3)指导原则、价值观和管理观点。4)数据管理的使命和长期目标。5)数据管理成功的建议措施。6)符合 SMART 原则(具体、可衡量、可操作、现实、有时间限制)的短期(12~24 个月)数据管理计划目标。7)对数据管理角色和组织的描述,以及对其职责和决策权的总结。8)数据管理程序组件和初始化任务。9)具体明确范围的优先工作计划。10)一份包含项目和行动任务的实施路线图草案。

数据管理战略规划的可交付成果包括: 1) ==数据管理章程==:总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。2)==数据管理范围声明==。 规划目的和目标(通常为 3 年),以及负责实现这些目标的角色、组织和领导。 3)==数据管理实施路线图==。确定特定计划、项目、任务分配和交付里程碑。

战略一致性模型(SAM): 它抽象了各种数据管理方式的基本驱动因素,模型的中心是数

据和信息之间的关系。 见下图1-3

阿姆斯特丹信息模型(AIM): 与战略一致性模型一样,它抽象出一个关注结构(包括规划和

架构)和策略的中间层。见下图1-4

DAMA车轮图: 定义了数据管理知识领域。它将数据治理放在数据管理活动的中心,因为治理是实现功能内部一致性和功能之间平衡所必需的。其他知识领域(数据体系结构、数据建模等)围绕车轮平衡。见下图1-5

环境因素六边形图: 显示了人、过程和技术之间的关系,是理解 DMBOK 语境关系图的关键。见下图1-6

知识领域语境关系图: 描述了知识领域的细节,包括与人员、流程和技术相关的细节。数据治理 活动通过战略、原则、制度和管理提供监督和遏制。通过数据分类和数据估值实现一致性。图1-17

生命周期管理活动源于 主数据使用、文件和内容管理、商务智能、数据科学、预测分析、数据可视化。许多情况下都会基于现有数据进行增强性的开发,获取更多洞察,产生更多的数据和信息。数据货币化的机会可以确定源于数据的使用。

数据治理项目 通过制定战略和支持原则、制度和管理实践,使组织能够以数据为驱动力,确保组织认识到并利用从其数据 中获得价值的机会。

图1-1 数据管理原则

图1-2 数据生命周期关键活动

图1-3 战略一致模型

图1-4 阿姆斯特丹信息模型

图1-5 DAMA车轮图

图1-6 环境因素六边形图

图1-17 知识领域语境关系图

图1-8 DMBOK金字塔

图1-9 DAMA功能领域依赖关系图

图1-10 DAMA数据管理功能框架

以上就是关于大数据为生命周期管理带来挑战全部的内容,包括:大数据为生命周期管理带来挑战、《DAMA-DMBOK2》读书笔记-第1章 数据管理、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

转载请注明原文地址:https://juke.outofmemory.cn/read/3683319.html

最新回复(0)