数据分析建模的方法

火影忍者大结局2023-02-09 32

数据分析建模的方法是选择分析模型，训练分析模型，评估分析模型。

基于收集到的业务需求、数据需求等信息，研究决定选择具体的模型，如行为事件分析、漏斗分析、留存分析、分布分析、点击分析、用户行为分析、分群分析、属性分析等模型，以便更好地切合具体的应用场景和分析需求。每个数据分析模型的模式基本是固定的，但其中存在一些不确定的参数变量或要素在里面，通过其中的变量或要素适应变化多端的应用需求，这样模型才会有通用性。企业需要通过训练模型找到最合适的参数或变量要素，并基于真实的业务数据来确定最合适的模型参数。

数据是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始素材。数据可以是连续的值，比如声音、图像，称为模拟数据，也可以是离散的，如符号、文字，称为数字数据。

1、分类和聚类

分类算法是极其常用的数据挖掘方法之一，其核心思想是找出目标数据项的共同特征，并按照分类规则将数据项划分为不同的类别。聚类算法则是把一组数据按照相似性和差异性分为若干类别，使得同一类别数据间的相似性尽可能大，不同类别数据的相似性尽可能小。分类和聚类的目的都是将数据项进行归类，但二者具有显著的区别。分类是有监督的学习，即这些类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。而聚类则是无监督的学习，不需要对数据进行训练和学习。常见的分类算法有决策树分类算法、贝叶斯分类算法等聚类算法则包括系统聚类，K-means均值聚类等。

2、回归分析

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，其主要研究的问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。按照模型自变量的多少，回归算法可以分为一元回归分析和多元回归分析按照自变量和因变量间的关系，又可分为线性回归和非线性回归分析。

3、神经网络

神经网络算法是在现代神经生物学研究的基础上发展起来的一种模拟人脑信息处理机制的网络系统，不但具备一般计算能力，还具有处理知识的思维、学习和记忆能力。它是一种基于导师的学习算法，可以模拟复杂系统的输入和输出，同时具有非常强的非线性映射能力。基于神经网络的挖掘过程由数据准备、规则提取、规则应用和预测评估四个阶段组成，在数据挖掘中，经常利用神经网络算法进行预测工作。

4、关联分析

关联分析是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的关联、相关性或因果结构，即描述数据库中不同数据项之间所存在关系的规则。例如，一项数据发生变化，另一项也跟随发生变化，则这两个数据项之间可能存在某种关联。关联分析是一个很有用的数据挖掘模型，能够帮助企业输出很多有用的产品组合推荐、优惠促销组合，能够找到的潜在客户，真正的把数据挖掘落到实处。4市场营销大数据挖掘在精准营销领域的应用可分为两大类，包括离线应用和在线应用。其中，离线应用主要是基于客户画像进行数据挖掘，进行不同目的针对性营销活动，包括潜在客户挖掘、流失客户挽留、制定精细化营销媒介等。而在线应用则是基于实时数据挖掘结果，进行精准化的广告推送和市场营销，具体包括DMP，DSP和程序化购买等应用。

数据建模是一个用于定义和分析在组织的信息系统范围内支持商业流程所需的数据要求的过程。简单来说，数据建模是基于对业务数据的理解和数据分析的需要，将各类数据进行整合和关联，使得数据可以最终以可视化的方式呈现，让使用者能够快速地、高效地获取到数据中有价值的信息，从而做出准确有效的决策。

之所以数据建模会变得复杂且难度大，是因为在建模过程中会引入数学公式或模型，用于确定数据实体之间的关联关系。不同的业务逻辑和商业需求需要选择不同的数学公式或模型，而且，一个好的数据模型需要通过多次的测试和优化迭代来完成，这就使得数据建模的难度变得很高。但是，数据分析中的建模并没有想象中的那么高深莫测，人人都可以做出适合自己的模型。

数据建模总归是为了分析数据从而解决商业问题。如下图数据建模的流程图，数据建模核心部分是变量处理和模型搭建。

变量处理

在建模之前，首先要决定选择哪些变量进行建模，主要从业务逻辑和数据逻辑两方面来考虑。业务逻辑需要了解数据来源的背景，通过了解业务知识来判断哪些变量在业务上很有价值的，哪些变量是可以选择的。数据逻辑则是从数据的完整性，集中度，是否与其他变量强相关等角度来考虑。

除了选择变量，对于一些变量的重构也是需要在建模前进行。例如客户的满意度有“满意”“不满意”，可以将其重构成数字“0”和“1”，便于后续建模使用。除此以外，还有将变量单独计算（取平均值）和组合计算（如A*B）也是常用的重构方法，例如，缺失值以数据取平均值的方式替换。

模型搭建

在模型搭建时，会经历选择算法、设定参数、加载算法、测试结果四个过程。在这个过程中，测试结果会引导调整之前设定的参数，加载算法会对应调整之前选择的算法，而选择算法时会考虑到已定的变量，如果变量不满足算法要求，还需回到选择/重构变量，直至得到最合适的模型。

在优化模型的过程中，模型的解释能力和实用性会不断地提升。在结果输出之后，还需接收业务人员的反馈，看看模型是否解决了他们的问题，如果没有，还需进一步修改和调整。

MicroStrategy在数据领域深挖企业需求，经过多年的研究和沉淀，结合众多复杂的应用场景，不断更新体验，深入开发各种数据辅助功能，使客户可以一站式链接各类型数据资源，完成数据导入和数据建模。在MicroStrategy 平台中，既支持传统方式数据建模，即通过Project Schema 来进行建模，又支持自助式数据导入的建模方式。

转载请注明原文地址:http://juke.outofmemory.cn/read/2927252.html

00 生成海报

数据分析建模的方法

数据

建模

模型

变量

算法

什么虫不是虫脑筋急转弯

椒盐色的雪纳瑞是什么概念?