机器学习建模步骤你知道吗

清明节吃什么2022-07-22 48

机器学习建模步骤你知道吗

1.把实际问题抽象成一个数学问题:这里的抽象是一个数学问题，意思是我们知道可以得到什么样的数据，目标是一个分类或回归或聚类问题。如果都不是，如果归类为某种问题。

2.数据获取:数据获取包括获取原始数据，通过特征工程从原始数据中提取训练和测试数据。机器学习竞赛中的原始数据是直接提供的，但实际问题需要我们自己去获取。“数据决定了机器学习结果的上限，算法只是尽可能的逼近这个上限”，可见数据在机器学习中的作用。一般来说，数据要“有代表性”。对于分类问题，数据偏斜不能太严重，不同类别的数据数量不能相差几个数量级。评估数据量、样本数和特征数，并估计训练模型的内存消耗。如果数据量过大，可以考虑减少训练样本，降低维度或者使用分布式机器学习系统。

3.特征工程:特征工程包括特征构造、特征提取、特征选择和对原始数据的特征工程。如果原始数据做得好，就能发挥出最大的效用，往往能显著提升算法的效果和性能。有时，它可以使简单模型的效果比复杂模型的效果更好。大部分的数据挖掘时间都花在了特征工程上，这是机器学习非常基础和必要的一步。数据预处理、数据清洗、筛选显著特征、丢弃非显著特征等。在模型训练、诊断和模型调整诊断中，判断过拟合和欠拟合是必不可少的。常用的方法是绘制学习曲线和交叉验证。通过增加训练数据量，降低模型的复杂度，可以降低过拟合的风险，提高特征的数量和质量，增加模型的复杂度，防止欠拟合。已诊断的模型需要进一步调整，调整后的新模型需要重新诊断。这是一个反复迭代、不断逼近的过程，需要不断尝试才能达到最优状态。

4.模型验证和误差分析:通过测试数据，验证模型的有效性，观察误差样本，分析误差产生的原因，往往可以找到提高算法性能的突破点。误差分析主要是分析误差来源、数据、特征和算法。

5.模型融合:提高算法精度的主要方法是前端(特征工程、清洗、预处理、采样)和后端模型融合。模型融合在机器学习竞赛中很常见，基本可以提高效果。

6.上线运营:这部分主要是项目实施相关。工程是以结果为导向的，模型上线运行的效果直接决定了模型的成败。不仅仅是它的精度和误差，还有它的运行速度(时间复杂度)、资源消耗(复杂度在空之间)和它的稳定性是否可以接受。

转载请注明原文地址:http://juke.outofmemory.cn/read/842328.html

00 生成海报

机器学习建模步骤你知道吗

建模

步骤

机器

学习

梦见猪头肉周公解梦

途乐费油吗油耗多少