机器学习建模步骤你知道吗

清明节吃什么2022-07-22  36

机器学习建模步骤 你知道吗

1.把实际问题抽象成一个数学问题:这里的抽象是一个数学问题,意思是我们知道可以得到什么样的数据,目标是一个分类或回归或聚类问题。如果都不是,如果归类为某种问题。

2.数据获取:数据获取包括获取原始数据,通过特征工程从原始数据中提取训练和测试数据。机器学习竞赛中的原始数据是直接提供的,但实际问题需要我们自己去获取。“数据决定了机器学习结果的上限,算法只是尽可能的逼近这个上限”,可见数据在机器学习中的作用。一般来说,数据要“有代表性”。对于分类问题,数据偏斜不能太严重,不同类别的数据数量不能相差几个数量级。评估数据量、样本数和特征数,并估计训练模型的内存消耗。如果数据量过大,可以考虑减少训练样本,降低维度或者使用分布式机器学习系统。

3.特征工程:特征工程包括特征构造、特征提取、特征选择和对原始数据的特征工程。如果原始数据做得好,就能发挥出最大的效用,往往能显著提升算法的效果和性能。有时,它可以使简单模型的效果比复杂模型的效果更好。大部分的数据挖掘时间都花在了特征工程上,这是机器学习非常基础和必要的一步。数据预处理、数据清洗、筛选显著特征、丢弃非显著特征等。在模型训练、诊断和模型调整诊断中,判断过拟合和欠拟合是必不可少的。常用的方法是绘制学习曲线和交叉验证。通过增加训练数据量,降低模型的复杂度,可以降低过拟合的风险,提高特征的数量和质量,增加模型的复杂度,防止欠拟合。已诊断的模型需要进一步调整,调整后的新模型需要重新诊断。这是一个反复迭代、不断逼近的过程,需要不断尝试才能达到最优状态。

4.模型验证和误差分析:通过测试数据,验证模型的有效性,观察误差样本,分析误差产生的原因,往往可以找到提高算法性能的突破点。误差分析主要是分析误差来源、数据、特征和算法。

5.模型融合:提高算法精度的主要方法是前端(特征工程、清洗、预处理、采样)和后端模型融合。模型融合在机器学习竞赛中很常见,基本可以提高效果。

6.上线运营:这部分主要是项目实施相关。工程是以结果为导向的,模型上线运行的效果直接决定了模型的成败。不仅仅是它的精度和误差,还有它的运行速度(时间复杂度)、资源消耗(复杂度在空之间)和它的稳定性是否可以接受。

转载请注明原文地址:https://juke.outofmemory.cn/read/842328.html

最新回复(0)