对政府来说大数据就像是无价之宝

什么是关联词语2022-07-07  24

数据本身是没有价值或者无足轻重的,它的价值是给定的。就像黄金一样,黄金的价值就是它的应用前景或者场景。

数据的价值是数据能力的收益,或者说是投资回报。

今天,我们来谈谈数据能力和价值。说到大数据,就不得不提数据仓库。企业数据仓库在最后阶段可能成为大脑的中枢神经系统。如果我们想要支持整个复杂的大脑和神经系统,我们需要一系列复杂的机制。

一、抽象数据能力架构我将数据能力抽象为四个方向:传输能力、计算能力、算法能力和数据资产级别。后面我会讲从这四种能力概括出来的数据应用和价值。

1.数据传输能力

大部分数据使用场景必然会涉及到数据传输,数据传输的性能决定了一些应用场景的实现,比如实时数据调用、处理、算法推荐和预测等。而从传输中抽象出来的支撑系统就是底层的数据存储架构(当然传输不在机房等情况下还要考虑网络环境。简单的小数据量调用一般不涉及这些,但是当数据量大,并发高,SLA要求非常严格的时候,就是对数据传输能力的考验了)。

从产品的角度,我把数据传输能力分为:底层数据传输效率和应用数据传输效率。

底层数据传输效率是指数据源进入后的预处理阶段,即加工成产品所需的数据交付前的阶段的传输效率。

Ps:数据在被产品使用之前,需要一个漫长的处理过程。应用级的数据产品基本不覆盖底层的数据处理环节,而数据产品会使用规定的数据可交付物(即约定的结构化或标准化数据),这些数据可交付物将通过产品对实际应用场景的匹配和处理来提供数据服务。甚至涉及底层数据管理的相关产品都是对元数据、使用日志或编写的shell的调用。

底层数据处理和计算涉及的传输效率直接决定了高性能、高可靠性的支撑数据产品的自我需求;应用层的传输影响用户体验和场景实现。传输机制和系统像遍布全身的毛细血管一样复杂,但循环速度直接决定了大脑是否有足够的氧气供应。

2.数据计算能力

数据的计算能力就像造血系统,从各种来源产生和加工养分,最终产生血液。而源数据经过底层多存储的高性能分布式技术架构ETL(提取、转换、加载)清洗后,产品就是数据中间层的通用结构化数据可交付物。计算速度和造血速度一样,决定了供给。计算速度直接决定了数据应用的时效性和应用场景。

目前最常见的是离线仓库盘点。离线仓库盘点大多起到事后诸葛亮的作用,即没有办法保证数据的时效性,延误了数据分析和应用的输出,导致经验多,实时决策困难。而实时的仓库盘点,甚至是数据湖的实时处理,也逐渐开放应用了各种场景。先不考虑越来越强的实时性要求带来的巨大成本是否真的能创造出对等的收益。

实时可以更接近一个“未来”的状态,也就是此时此刻。这远比算法对未来的预测更有价值,因为对一个企业来说,把握当下比构建一个多变的未来更有价值。甚至当数据处理快于神经元的传输时,从你的脑电波被获取的那一刻起,数据处理的驱动结果就远远快于神经元向驱动肢体的传输。

是不是类似于兵马未动,粮草先行的场景?当然,这是从数据计算能力的角度。从我个人的角度来说,当整体的数据能力强到一定阶段,就会主观上改变一个人的意志,也就是通过引导你的大脑去控制或者决定一个人的行为,而不会让你感觉到,所以可以理解为主观上改变一个人的意志。从人类的角度来看,你并不知道或者直觉上想要通过空来决定下一步该做什么,因为大脑是一个逻辑处理器。当然这涉及到心理学,这里就不重复这些观点了。再来说说另一个空间的数据应用的未来前景和假设。

3.数据资产能力

大家都在说“大”数据,那么数据量级越大越好吗?不会,从某种角度来说,大量没有价值或者没有发掘价值的数据是一种负担,巨大的资源损失不是轻易就能抹平的。

随着数据量的迅速扩大,带来了数据孤岛:数据是未知的、不相关的、不可控的和不可取的;那么分散的数据只有转化为资产才能更好的利用其价值。

什么是数据资产?我觉得可以广义的定义为直接可用的交付数据,也就是可以归类为资产。当然,直接可用的数据有很多种形式,比如元数据、特性、指示器、标签和ETL的结构化或非结构化数据。

目前,数据湖的应用场景也在不断拓展。直接实时地使用和处理数据湖数据的趋势是扩大企业自有数据资产的范围和利用率的一种方式。这有利于突破数据仓库模型中数据的框架限制,在改变数据使用方式时会有更大的想象空间空。

数据资产的价值可以从两个部分来考虑:一个是数据资产直接变现的价值;另一部分是将数据资产作为资源处理后提供数据服务的商业价值。

第一部分很好理解,即数据集的输出变量值,如标签、样本和训练集的直接输出等。,根据数据量计算值;价值的第二部分,比如通过自训练数据优化的算法的应用,提高业务收入的价值,或者实现广告基于数据的营销等。,甚至把沉淀下来的数据资产管理能力的价值作为知识的无形资产为外部服务。这些间接的数据应用和服务的实现,也是数据资产价值的体现,可以精细量化。

4.数据算法能力

事实上,无论是传输能力还是计算能力,都相对偏向于底层数据层的实现,算法能力提供的算法服务最接近业务场景,是最直接应用于业务场景,也更容易被用户感知的数据能力。因为用户感知的是传输和计算的速度,从用户的角度来看应该是快,所以用户不知道何时何地计算或传输。

算法是一个从0到1,从无到有的过程,针对业务应用场景。而且算法是基于数据传输、计算和资产能力的广义应用能力,或者换句话说,是三种基本能力的封装进化。

算法的能力是将多个数据集,或者说尽可能多的获取数据,转化为一个决策判断结果,并应用于业务场景。算法的强弱反映了三种数据能力是否高效协作,是否存在木桶效应,甚至是否不存在木桶效应。当然,简单的算法也可以作为无形资产的知识沉淀来提供服务。

对于数据能力架构中的四种能力,传输、计算和资产是基础能力,算法是高级概括能力。能力的输出和应用才能体现数据的价值,数据能力的最大输出考验着整个数据产品架构体系的通用性和灵活性。因为我们要面对各种业务演化出来的多种场景,对数据能力的需求是不均衡的:可能是片面的,也可能是多种能力协同的。这是对产品通用性的巨大挑战。为了更好的处理这个问题,可能需要整个数据平台的产品矩阵来支撑和赋能。

第二,数据能力对应数据值的呈现。从数据应用的角度来看,每个能力可以独立开放,也可以组合叠加。如果把能力具体化,就会导致产品形态的问题,产品形态是能力改编后发挥作用的可交付物。说到产品形态,可以想象一下应用场景。

首先,最基本的应用场景是数据的直接调用,数据资产的使用基本基于特征、指标、标签或知识等交付形式。对于用户而言,这些数据将作为半成品原料或基础进行二次加工并应用于业务场景,如数据分析、数据挖掘、算法训练与验证、知识图谱、个性化推荐、精准投放(触达)和风险控制等。数据资产可以被统一归类为通过一些OpenAPI构建的数据市场。

而对于一个工厂来说,只有原材料的加工(ETL)输出,意味着除了自身原材料(数据资产)的壁垒之外,核心竞争力非常小,需要打包一些上层的基础服务来提升竞争力,所以数据计算的能力被整合到原材料的二次加工(聚合统计)中。

计算的聚合统计能力可以满足大部分数据分析场景的支撑,不仅是没有技术含量的原材料输出,更是以半成品的形式避免了数据敏感。因为对于统计值来说,这是一个分析结果或者结论,不会涉及到自身敏感数据的输出,所以你的核心资产不会泄露,输出的只是资产的附加值。也就是说,知识产权专利还在你手里,通过控制专利推广能力,可以实现投资回报。

整合计算能力后的一些分析场景,如人群画像分析、多维交叉分析、经营策略分析、监控分析等。

随着时代的发展,业务场景的增加,这个时候,工厂继续需要产业转型。要深化服务业,逐步摒弃制造业形态,全面升级更高层次的数据服务。这时候加入算法能力,更好的完善服务矩阵。

该算法封装了传输、计算和资产的能力,并对业务场景目标进行统一和更好理解的预测和识别。这样企业更容易低成本的接受和使用数据服务,而不需要在数据处理环节介入,只需要一个目标结果,算法的决策可以作为参考来指导业务方向。比如算法对一些业务场景的预测和分析,甚至一些人工智能场景的识别或学习思维,都可以通过算法赋能来实现。对于企业来说,是从无到有的突破,企业的发展过程甚至可能会改善好几年。

贯穿以上能力的应用场景,都是对数据传输能力的考验。

转载请注明原文地址:https://juke.outofmemory.cn/read/624534.html

最新回复(0)