百度权重数值与哪些指导正相关

百度权重数值与哪些指导正相关,第1张

原则集成学习通过构造和组合多个学习器来完成学习任务。通过组合多个学习者,通常可以获得比单个学习者显著更好的效果和推广能力。集成中的基础学习者可以是同质的,也可以是异质的。根据个体学习者的生成方式,目前的集成学习方法大致可以分为三类:一类是Bagging,个体学习者之间没有很强的依赖性,可以同时并行训练和生成,最终结果通常由投票机制产生,其中以random forest为代表;另一种是Boosting,个体学习者之间有很强的依赖性,后一个学习者依赖于前一个学习者的结果,所以必须以串行化的形式串行生成。我们下一节要讲的Adaboost和GBDT就是这种类型的代表;其实还有第三类,叫叠加,就是初级学习者的输出和次级学习者的输入特征。深度神经网络甚至可以理解为堆叠集成学习的变种。

随机森林是一种基于决策树学习器的Bagging集成学习算法,实现简单,计算成本低,在许多实际任务中表现出抢眼的效果。主要通过样本扰动和属性扰动来提高集成学习的泛化能力。样本扰动是指通过对初始训练集进行采样来构建每个决策树;属性扰动是指分裂时从基决策树各节点的属性集中随机选取k个属性(k一般去log(d,2),d为属性个数)。

模特培训代码地址:

定义火车():

print("开始训练...")

#处理培训数据

train_feature,train _ target = process _ file(train _ dir,word_to_id,cat_to_id)

#模特培训

模型.拟合(训练特征,训练目标)

定义测试():

print("开始测试...")

#处理测试数据

test_feature,test_target = process_file(测试目录,单词至标识,分类至标识)

# test _ predict = model . predict(test _ feature)#返回预测类别。

test _ predict _ proba = model . predict _ proba(test _ feature)#返回每个类别的概率。

test _ predict = NP . arg max(test _ predict _ proba,1) #返回概率最高的类别标签。

#准确性

true_false =(测试预测==测试目标)

accuracy = np.count _非零(true _ false)/float(len(test _ target))

打印()

print("精确度为%f" %精确度")

#精确召回f1-分数

打印()

print(metrics . class ification _ report(test _ target,test_predict,target_names=categories))

#混淆矩阵

print("混淆矩阵...")

print(metrics . confusion _ matrix(test _ target,test_predict))

如果不是os.path.exists(vocab_dir):

#建立一个字典表

build_vocab(训练目录,vocab _目录)

类别,cat_to_id = read_category()

字,word _ to _ id = read _ vocab(vocab _ dir)

# kNN

#型号=邻居。近邻分类器()

#决策树

#模型=树。决策树分类器()

#随机森林

基于模型的决策树数量=集成。RandomForestClassifier(n _ estimators = 10)# n _ estimators,一般效果越大越好,直到收敛。

火车()

测试()运行结果:

ead _类别...

read_vocab...

开始训练...

开始测试...

精确度为0.875000

精确召回f1-分数支持

娱乐0.83 0.91 0.87 89

财产0.78 0.83 0.80 104

教育0.81

首页0.75 0.71 0.73 89

游戏0.93 0.95 0.94 104

时间0.78 0.79 0.78 94

时尚0.94 0.89 0.92 91

体育0.98 0.97 0.97 116

财经0.95 0.91 0.93 115

科学技术0.99 0.96 0.97 94

平均数/总数0.88 0.88 0.88 1000

混淆矩阵...

-了解更多干货文章,可以关注小程序问答。

欢迎分享,转载请注明来源:聚客百科

原文地址: http://juke.outofmemory.cn/life/625946.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-07-07
下一篇 2022-07-07

发表评论

登录后才能评论

评论列表(0条)

保存