数据分析能力模型

商业网点2023-05-09  27

「过去」 以往在增量时代,每天都有新的领域、新的市场被开发。尤其是在互联网、电商等领域的红利期,似乎只要做好单点的突破就能获得市场。这个蛮荒时代,业务运营主要依靠是经验和直觉驱动。比如跨境电商领域初期,凭借世界工厂平台的优势,国内厂家似乎只需基于经验选品即可大卖。

「现在」 但是随着规则的成熟,更多玩家的进入,市场从蓝海变为红海,进入到存量期,仅靠经验驱动的增长模式不再有效。还是拿跨境电商举例,由于卖家的剧增,海外市场的饱和,跨境电商就进入存量运营时代,已经不存在绝对的蓝海市场,每个细分领域都有许多竞争对手。此时, 要求商家从粗放运营转为精细化运营,也就是用数据分析报告决定市场是否值得投入,用数据选品,用数据做经营分析,用数据库存管理。

当然,不是说纯定量的数据分析决定了一切,经验就不重要了。而是说在决策的过程中,数据结论占据的比例与以往相比更大,同时业务经验也是必不可少的部分。

「未来」 互联网逐渐成为“传统行业”的未来,人工智能、元宇宙等 由数据驱动的行业越来越依赖数据分析。 还有众多制造业亟待数字化转型,以期在全球供应链中提高制造环节的附加值。 也就是说,在未来,数据驱动业务将更频繁。

数据分析的本质是「沙盘演练」:战场上,指挥员们在指挥部的地形模型前「推演」敌我双方的趋势确定作战方案; 商场上,管理层通过数据间的运算关系「推断」运营的发展进而做决策。

基于这样的定义可以知道数据分析的目的是为了做对当下运营发展有利的决策,那它是如何做到的呢?为了解答这个问题,可以从前面的定义中 引申出几个关键概念:数据,运算关系,推断,决策。

最通用的理解,数据是被存储起来的信息。从应用的角度,数据是把事物做量化处理的工具,万物皆可数据化:数值数字是数据,文本、图像、视频等同样都是数据。

字段类型 划分,可以把数据分为:

结构 划分,可以把数据分为:

根据 数据连续的属性 不同,还可以分为:

孤立的数据往往没有参考价值,比如量化一个人,身高是180cm,并不能意味什么。比如网易云音乐的用户,每个用户的年龄是数据,对使用产品的人群年龄进行分段比如18-24岁,该年龄段人数占比的指标对网易云音乐来说才有价值。 从数据到指标的计算过程,就是数据间的「运算关系」,也叫「指标」。

指标的作用在于「度量」业务的发展:

这些指标(点)通过一定的结构可以编织而成指标体系(线、面)衡量局部、甚至是全局的业务

「沙盘演练」中,指挥员通过军事沙盘上的地形,及敌我双方的工事、兵力部署、火器配置等情况,分析敌情,制定作战方案。 数据把现实中的运营抽象到数字世界中,通过指标体系,应用各种分析方法(业务分析、产品分析、用户分析、经营分析),帮助经营做决策

赵括熟读兵书,却不能活用,沦为纸上谈兵的笑话。所以获得分析能力后,不能照本宣科,要结合实际业务场景做决策。

数据分析落地涉及流程创新、变革管理,用新的思维解决业务问题。 但这个过程并不是强迫变革,需要借助对业务的理解及软性的能力来使分析平滑落地。

站在“前人”的肩膀上,可以走得更远。饼干哥哥根据多年数据分析工作经验沉淀出了数据分析师能力模型,跟着它“按图索骥”,补充自身缺失的能力,最终形成独立、落地的数据分析能力。

完整的数据分析师能力体系应该包括 底层认知、业务场景及能力三板斧。

在建立数据分析思维之前,应该先在底层认知达成共识。

什么是认知? 是对事物底层逻辑的了解,是对是世界万物的判断,认知的本质就是做决定。 也就是说,为了帮助数据分析中每个决策的有效性(选择什么指标、分析方法?接下来做什么?等等),需要先建立底层认知。

这一步,我们需要去明确数据分析的定义:数据分析是什么?目的/产出?分析流程?

同学们在求职过程中会发现,同样是数据分析师岗位,但是面试的内容千差万别,有考察机器学习、统计学等专业能力的,也有考察市场/行业分析的,还有考察产品分析的。

此时就有同学问,这些真的是数据分析该做的吗?

我们从字面上拆解,数据分析 = 数据 分析,进一步拆:

这就是认知上的偏差:当一些同学认为数据分析就是用Excel做表、python写脚本、机器学习建模时(其实这些只是组成数据分析能力的一部分),求职市场对数据分析师的要求更为完整。

回过头来看,数据分析到底是什么?笔者认为, 数据分析是一个过程,是利用数据能力做分析的过程:从发现问题、分析原因,到落地建议;这还是一个“解构”的过程:从整体拆到局部,从一般到特殊,从面到线到点,不断下钻剖析,找到具体可落地的点。

了解完什么是数据分析后,深入思考一个问题:这个过程的最终产出的交付物是什么?

要回答这个问题,我们需要 回到数据分析的本质:解决业务问题。 也就是回到业务层面的需求是什么,才能决定最后落地交付物:

最常见的数据分析场景,就是业务发现销售额下降、用户流失、产品跳失率高,也就是业务层面出现了一个问题待解决,此时需要数据分析师介入帮助从数据层面挖掘原因、给出解决建议。

分析过程可能是做一些 探索 性数据分析、统计分析、机器学习建模,甚至是做AB测试实验,最终交付分析报告,或者模型部署上线。

有时业务可能并不存在确切的“问题”,更多旨在通过加深对现有场景的理解,来提高现有业务模型、策略的效果;比如,现在业务使用的是客单价平均值将客户分为高、低两个人群进行营销,此时数据分析师通过对消费者的洞察分析,给予更精准的人群划分方案:利用客单价分位数,将客户分为三个人群,这样业务利用更新后的策略进行营销设计,提高转化效果。

分析过程可能是做相关分析、回归分析,甚至是无监督的聚类,来对现状进行解释。

按照需求的时效性,可以把业务需求分为临时需求和常规需求,而前面两者属于业务的临时需求,或者说是专项分析需求。 对于常规需求,主要旨在提高业务流程的效率 ,比如对于电商运营中的商品库存管理业务,运营需要及时查询库存情况,并结合销售趋势对低库存量的商品进行补单;此时,数据分析师可以通过交付“低库存预警报表”来帮助优化该流程效率。

支持诊断的内容主要集中在自动化的报表,甚至是商业智能(BI)体系的搭建。

如果说前面是基于已知模式的分析,那么业务中还存在一种需求,就是对未知的 探索 。最为典型的场景则是对市场、对消费者的洞察后,给出品牌及业务增长的策略。

分析过程更多是基于行业、基于市场,使用如PEST、SWOT、波特五力等商业分析模型。

至此,我们知道了数据分析是什么,以及最终的产出交付物,那这个过程如何实现的呢?从落地的角度来看,数据分析是一个从 发散到收敛 的过程: 业务理解-数据 探索 -分析模型-落地交付-产品生命周期

数据分析是从业务到数据再回到业务的过程,所以理解业务是数据分析的起点。

“无场景不分析”、“脱离业务场景的分析都是耍流氓”等资深数据分析师的建议无不说明业务场景的重要性。数据分析能力模型中的业务场景模型:用户-产品-场景,就是为了帮助读者理解业务场景而设计的,在这里不赘述。

不知道读者有没这样的体验?就是领导交代任务给你,或者是朋友有求于你时,执行力强的人很快就完成了任务请求,但是最后却被告知这结果并不是对方想要的?这种情况很常发生在初入数据分析岗位的新同学身上,原因归根结底就是没有做好问题定义!

在理解了需求所处的业务场景后,可以 借助逻辑树工具来对问题进行拆解,拆解的过程尽量要遵循MECE、“相互独立,完全穷尽”的金字塔原理

如果说前面定义问题是明确做什么,那在这一步就是要明确做到什么程度?

比如面对销售额下降的问题,做数据分析,最终是产出一份数据分析报告就好了,还是说需要介入到测试实验,给出增长策略?如果是后者,那对销售额的提升幅度要提升多少才有价值?是不痛不痒的1%还是要达到显著的10%?

如果不在价值层面做思考,并付诸价值落地的行动,最后很容易产生“价值在哪”的灵魂拷问,面临被优化的风险

在业务理解阶段,我们是站在业务层面与需求方沟通,但是数据分析的核心部分都是在数据层面进行的。所以在正式开始分析之前,我们需要 把业务需求转成数据需求,这个过程就是数据 探索

拿到业务需求时的定义问题阶段,需要数据的辅助:用数据透视业务,判断现状与描述是否一致。比如,业务说销售额下降了需要分析,但是这个下降是和谁比?环比下降但是同比提升,同比下降,但是和竞品相比是提升的。

这个步骤比较多的是使用 探索 性数据分析(Exploratory data analysis),或者说通过常见的统计指标来对数据现状进行剖析。

如果说第一步是在用数据验证需求的有效性,那这一步则是真正把业务问题转为数据需求。

此外,还需要判断数据质量及能做的特征工程,比如某些字段缺失率太高,这会影响特征的构建。

了解业务、明确数据需求后,就可以挑选合适的武器(分析方法、模型框架)上阵。

概括来说,有四种分析方法:

指标的好坏、特征是否显著等都可以通过比较分析的方法来实现,比如常见的归因业务场景,本质就是做比较,通过横向、纵向的比较找出原因。

分析方法:比如T检验、方差分析、同比环比、同期群分析等

分析变量之间的相关性是重要的分析场景。比如业务中想知道提高广告预算是否能、甚至是能提升多少的销售业绩?这样的相关性分析或许能找到最优投放ROI的配置方案。

分析方法:卡方、皮尔逊(Pearson)相关系数、斯皮尔曼(Spearman)相关系数、结构分析等

不论是对企业销售的预测、还是对用户行为的预测,都能帮助提升业务效率,比如常见的预测用户流失分析,及时得到高概率流失的人群名单,运营通过提前营销干预,提高用户留存率;常见的销售预测能帮助企业在供应链侧做准备。这类场景主要应用的是机器学习中的有监督分类模型。

分析方法:线性/逻辑回归、决策树、时间序列分析、贝叶斯等;

前面三种都是基于企业已知模式的分析逻辑,还有一种分析方法——无监督的机器学习模型,可以应对未知模式的分析。比如不知道应该把现有人群分成多少个组来进行营销最合适,就可以对人群基于核心特征做无监督的聚类分析,得出有效分组的界限。

分析方法:Kmeans聚类、DBScan聚类等;

交付落地的 最佳实践是让数据和分析从理论渗透到业务中,对流程进行变革提效

在交付给业务之前,需要先对给出的解决方案做有效性评估:

分析如果涉及模型的开发使用,需要通过AB测试,或者ROC等指标来证明模型在数据层面上的有效。在数据层面完成验证后,回到业务分析需求,评估交付的方案在业务层面上的有效落地。

数据分析是围绕业务价值而展开的,所以在最后的落地,也得就价值进行讨论, 回答这个方案解决业务问题的途径和程度

A 途径 是对流程的优化(降本提效)还是对数据的优化(数据体系效率、数据质量)?

B 这方式能多大 程度 上帮助解决?比如对业务的提升是10%还是30%?是对单次项目的应用,还是说可以部署到日常流程中,在更长时间、更广范围内影响业务?

C 此外,要实现这样的效果,需要投入的资源是什么

分析项目的落地需要多方参与,即使是业务能力丰富的分析师,由于流程边界的存在也不可能每步都参与执行。因此,确保项目能否有效落地的一个重要因素则是能否和业务达成共识。

如何做到?讲数据故事:起因(需求定义)、过程(分析逻辑)、结局(重要结论)是否引人入胜(被认可)。

这个过程需要制作PPT向上汇报、与业务沟通,甚至是做跨部门的演讲。

不论是业务模型还是算法模型,最终都有一个“靴子落地”的过程--落地实施。模型测试有效、与业务达成共识后就到了模型的部署上线阶段:

接在分析生命周期最后的是分析产品的生命周期: 以产品的思维看待数据分析,交付至业务落地的模型应用就是产品。数据分析这个过程并不是静态、单次的,而是一个PDCA不断迭代升级的过程 。(这个分析产品的定义包括分析服务、数据产品。)

从产品思维的角度,分析结论落地到业务流程中,对流程进行再造,提高运营效率。

当数据分析流程成熟后,大量重复执行的流程可以抽取出来,形成自动化的产品,用于服务数据分析(主要对象为数据分析师,也包括运营),这就是数据产品。分析师的结论模型就可以部署到现有的数据产品中,优化分析效率。

之所以要从产品思维的角度来看数据分析过程,是因为要像迭代产品那样去迭代分析模型:不论是优化算法参数,还是调整分析框架,都能得到更优的结论。

在数据分析生命周期第一步的“理解业务”中,我们提到业务场景的重要性。

根据业务经验,笔者沉淀了一套便于理解的模型:业务场景 = 用户 产品 场景

也就是说,要理解业务,就要了解用户,熟悉产品,明确分析所处的上下文场景。它们决定了分析的目标、处理逻辑以及落地建议。

更详细的讨论见:回归到营销理论,谈谈到底什么是业务场景?

对数据分析有了底层认知、了解业务场景后,就需要有看得见摸得着的“招式”来行动:思维方法、工具技术和项目能力这三板斧能组成不同招式应对多变的问题。

经常看到有人说数据分析如做饭,如果是这样的话, 在数据分析这个厨房里,工具技术就是锅铲、铁锅、勺子等器皿,思维方法就是切配、烹饪、打荷等技艺手法,项目能力则是最后的装盘上菜

很多人学做饭,可能是因为在抖音或B站看到某个 美食 视频,然后就开始按照视频步骤备料烹饪。这个过程,也就是数据分析中学习思维方法的过程。数据分析也是先有思维方法,才能谈得上是分析。

刚开始学做饭时,通常先学基础的煎、炒、炸、烤、煮、蒸、焖、拌烹饪方式。这些基础的能力在数据分析中就是统计学、相关分析、归因分析等通用分析思维。

正如 美食 有八大菜系,分别满足不同地域人群的口味,数据分析在不同场景下,也有不同的“分析”招式来满足不同的业务需求:

习得了做饭的方法后,就可以选择几件趁手的器皿,来提高烹饪效率。

之所以不是先选择器皿再研究做饭流程,是因为工具始终是工具,完成同一个目标或许有多种工具可以实现,再不济我用原始的土灶也能烧饭。

不过对于部分复杂的烹饪需求,也是需要选择特定的器皿才能完成。

常见的工具技术及应用:

菜做好后一定要及时出锅、装盘、上菜,要不然再美味的菜肴也只是空中阁楼。

项目能力强调的是数据分析项目的落地。理论的分析方法如何在业务场景中落地赋能,体现数据价值?这是很多企业数据团队在讨论的课题。

说项目能力像是烹饪最后的上菜阶段,其实不太严谨,因为 落地能力是一种软性的能力,贯穿分析项目的整个过程

作者: 作者饼干哥哥

来看看我们公司的大数据平台

我们的DataZ具备高性能实时和离线计算能力,丰富的统计、分析、挖掘模型,为行业全流程、全周期的生产运营活动提供商业智能支持,并能可视化您的数据,高效挖掘数据深层次信息。可以应用于金融大数据风控。

系统架构图System Architecture Diagram

数据采集Data Collection

大数据采集提供强大的数据抽取、转换和加载能力。适配多种数据源;适配多种数据抽取方式;可配置采集策略,支持集群方式运行;对采集过程进行监控和详细的日志记录;提供直观的图形界面设计器及工作流设计模式,满足各种场景的需求。

数据管理Data Management

完整的数据质量管理机制,实现集中化、制度化、流程化、过程可视化的管控。统一的数据标准规范,并使用编码映射机制,建立数据字典,实现不同数据源数据的整合,保证数据完整性、一致性、准确性。

数据挖掘Data Mining

通过DataZ,大数据挖掘,将常用统计、分析、挖掘的模型进行插件式封装,提供灵活、易用、高性能的可视化分析能力,让您快速洞察市场规律,及时发现业务盲点,发挥大数据的价值。

丰富的算法库

集成数据挖掘技术

支持集群线性扩展

流程可视化设计

简单易用,快速上手

大数据可视化Data Visualization

快速收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。可以实现决策支持、财务分析、预警分析、仪表板、绩效分析、经营分析等各类数据分析应用。

可视化设计平台

丰富的数据可视化组件库

快速简易的BI实施平台

支持多终端展现

1、SQL数据库的基本操作,会基本的数据管理

2、会用Excel/SQL做基本的数据提取、分析和展示

3、会用脚本语言进行数据分析,Python or R

4、有获取外部数据的能力加分,如爬虫或熟悉公开数据集

5、会基本的数据可视化技能,能撰写数据报告

6、熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法

1、分类和聚类

分类算法是极其常用的数据挖掘方法之一,其核心思想是找出目标数据项的共同特征,并按照分类规则将数据项划分为不同的类别。聚类算法则是把一组数据按照相似性和差异性分为若干类别,使得同一类别数据间的相似性尽可能大,不同类别数据的相似性尽可能小。分类和聚类的目的都是将数据项进行归类,但二者具有显著的区别。分类是有监督的学习,即这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。而聚类则是无监督的学习,不需要对数据进行训练和学习。常见的分类算法有决策树分类算法、贝叶斯分类算法等;聚类算法则包括系统聚类,K-means均值聚类等。

2、回归分析

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其主要研究的问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。按照模型自变量的多少,回归算法可以分为一元回归分析和多元回归分析;按照自变量和因变量间的关系,又可分为线性回归和非线性回归分析。

3、神经网络

神经网络算法是在现代神经生物学研究的基础上发展起来的一种模拟人脑信息处理机制的网络系统,不但具备一般计算能力,还具有处理知识的思维、学习和记忆能力。它是一种基于导师的学习算法,可以模拟复杂系统的输入和输出,同时具有非常强的非线性映射能力。基于神经网络的挖掘过程由数据准备、规则提取、规则应用和预测评估四个阶段组成,在数据挖掘中,经常利用神经网络算法进行预测工作。

4、关联分析

关联分析是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的关联、相关性或因果结构,即描述数据库中不同数据项之间所存在关系的规则。例如,一项数据发生变化,另一项也跟随发生变化,则这两个数据项之间可能存在某种关联。关联分析是一个很有用的数据挖掘模型,能够帮助企业输出很多有用的产品组合推荐、优惠促销组合,能够找到的潜在客户,真正的把数据挖掘落到实处。4市场营销大数据挖掘在精准营销领域的应用可分为两大类,包括离线应用和在线应用。其中,离线应用主要是基于客户画像进行数据挖掘,进行不同目的针对性营销活动,包括潜在客户挖掘、流失客户挽留、制定精细化营销媒介等。而在线应用则是基于实时数据挖掘结果,进行精准化的广告推送和市场营销,具体包括DMP,DSP和程序化购买等应用。

1、什么是漏斗模型?

漏斗模型是数据分析较常使用的一种方法,其适用的场景主要是对经过一连串用户操作才能完成任务,同时需要监控和分析任务最终完成的效果,以及每一步可能存在的问题。其场景具有以下2个本质特点:用户操作链路长,步骤多,每一步用户均有可能放弃或者继续存在一个最终的用户行为,该行为的完成情况是产品核心指标,用于衡量整个产品效果

漏斗模型的核心思想,是从最终目标入手,找出每一步用户的转化或者流失情况,配以每一步的转化率或者流失率指标来监控效果,并最终通过提升用户转化率,或者降低用户流失率,从而优化最终指标并实现商业价值。

对业务流程和用户场景的理解广度和深度,是漏斗模型能否正确使用的前提。以下结合互联网产品常用的4个场景进一步探讨漏斗模型的使用。

2、漏斗模型如何使用?场景化案例分析实际在进行漏斗模型的分析时,结合不同的业务场景和产品类型,漏斗模型大致可分为以下几种:用户获取模型消费漏斗模型电商漏斗模型功能优化漏斗模型

用户获取漏斗模型(AARRR):AARRR从整个用户生命周期入手,包括Acquisition用户获取,Activation用户转化,Retention用户留存与活跃,Revenue用户产生收入,到发起传播Refer。

互联网产品的新用户获取流程很长,从获客成本和用户质量两个核心指标入手,需要拆解用户获取的每一个环节,并观察和优化其核心指标,从而实现低获客成本,且高用户质量的商业诉求。在利用AARRR模型分析用户获取,需要从宏观和微观角度进行,宏观有助于对整体业务效果的监控,微观分析则有利于找出优化环节并为产品优化提供数据决策依据。

消费漏斗(流量分布图)

消费漏斗一般用于页面结构和内容较为复杂的业务,从用户内容消费和流量走向的角度,宏观层面用于回答用户消费什么内容,微观层面则用于分析影响用户消费的问题是什么。

结合今日头条APP的例子,宏观层面的消费漏斗,用于回答用户使用今日头条,都去哪些地方进行内容消费了(数据属于假设)。总体的消费漏斗,有助于查看产品信息架构是否合理,用户行为走向是否符合产品设计的预期:

电商购买转化漏斗用户商品的购买属于决策行为,将整个用户购买流程进行拆分,从浏览商品到支付订单,期间需要经过至少要经过以下4个环节,每一个环节用户均有可能因为各种原因流失掉,通过分析每个步骤的转化率,有利于发现问题,提升整体的交易成功率:功能优化漏斗漏斗分析也适用于产品功能自身的优化,从最终目标入手,拆分业务环节,提取和优化核心指标,从而提升整体功能的转化率。以手机消息推送为例子,消息推送初看是一个非常复杂的,且技术难度很高的产品功能,但是利用漏斗模型,层层拆解各环节,可发现一个完整的消息流程需要经过至少5个环节,通过观察和分析各个环节的转化率,优化每个环节的折损,从而达到更多用户消息的产品目标。

以上就是关于数据分析能力模型全部的内容,包括:数据分析能力模型、大数据分析中,有哪些常见的大数据分析模型、故障案例的大数据分析模型该从哪些方面入手等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

转载请注明原文地址:https://juke.outofmemory.cn/read/3856769.html

最新回复(0)