关于样本容量的公式,样本容量怎么表示

聚客2022-05-30  34

样本容量是什么意思,样本容量公式!

在建立个人信用评分的实体模型时,不仅要有足够的自变量来定性分析银行信贷申请人的个人信贷行为特征,而且模型模板的体积也要达到一定的总量。

一般来说的样本量越大,所创建的实体模型的精度或预测分析能力越高,实体模型越稳定。

目前,还没有一个根据基础理论计算出的最优数来建立一个预测分析精度高、鲁棒性好的个人信用评分的立体模型。但根据多年的模联实践活动,不少海外专家学者明确提出了一些工作经验法则。

这个工作经验法则告诉大家谜题的重要性不取决于模型样本量的大小,而取决于不良客户样本总数。一个由50000个好客户和500个坏客户组成的模型模板并不比一个由5000个好客户和500个坏客户组成的模型模板信息量更大,因为坏客户模板所包含的信息内容是创建个人信用评分实体模型时关注的重点。

在具体的模型整体中,一般的好客户总数总是远远超过坏客户总数,所以模型整体中的坏客户总数是个人信用实体模型成功建立的首要条件之一。

在征信体系发达的国家,模型样本量不够应该不是什么严重的问题。

这个国家可以用许多方法来处理这个难题:

  • 当需要对某种个人信用商品申请人进行评分时,如果样本量不足以创建评分实体模型,可以用个人征信机构的“实际评分”来代替。等好坏客户样本积累到一定量再建模。事实上,有很多个人征信产品根本不创建定制的评分实体模型,而是直接用个人征信机构出示的“实用评分”来对客户进行点评。自然,这需要一定的成本。

  • 由于社会发展征信体系相对发达的国家一般都有相对发达的个人信用销售市场和丰富的个人信用产品,所以在一个新的个人信用品牌推广的前期,通常可以找到类似的产品,前期使用类似产品的样本模型也是一个非常好的选择。

    在征信体系相对发达的国家,无论是银行征信机构还是个人征信管理公司,都有比较权威的个人信用分析专家。利用这类权威专家的专业知识和工作经验,可以创建一个朴素的“权威专家实体模型”。

    就目前国内的情况来看,在模型模板不够用的情况下,以上三种解决方案都不是很合理:

  • 因为征信系统不发达,没有“实用分数”可以利用;

  • 个人信用商品消费比较简单;

    关于消费者个人信用分析的权威专家还是比较少的。

    因此,样本量不足是我们在创建我国个人信用评级的实体模型时经常遇到的难题之一。

    处理模型样本量不足的方法有两种:

  • 第一类是不同金融机构同一商品的样本版;

  • 另一种是应用统计学中的Bootstrap方法。

    方法一: 结合不同的客户数据信息模型

    当样本数量不够时,一个最容易记住的解决方案是:将不同金融机构的同一商品的样本盘组装起来,创建一个实体模型。

    例如,当一个银行业希望为其销售的一种透支型卡创建一个个人信用评分的实体模型时,可以将该金融机构在不同地区的分支机构的客户数据结合起来,这样就可以在样本总数中考虑模型的规定。

    特别是这种组合并不等同于整体的做法,与一般创造个人信用评分的做法相反。在创建个人信用评分的实体模型时,为了提高实体模型的预测和分析精度,当整体内部差异很大时,如果样本板的体积足够大,具体做法是将整体分成若干个内部一致性好的子整体单元,然后对每个子整体做一个模型。

    海外专家学者对不同客户的全部数据信息进行汇总后创建实体模型的实际效果进行了一些科学研究。绝大多数经验分析表明,装配后创建的实体模型的精度通常会降低。

    精度下降的原因会来自两个层面:

  • 由于整体特征差异较大,危及实体模型的预测分析能力;

  • 每个整体中存储的特征自变量并不一致,模型中通常只使用每个整体的已有部分。自变量的约简通常会破坏大量的有效信息内容。

    模式二: Bootstrap模式用于解决样本量不够和不同客户整体数据信息合并的问题

    模板分为两部分,一部分用于建模,另一部分用于测试。

    这样做的主要目的是防止另一组样本同时用作训练样本(以创建实体模型)和测试样本,从而过度估计预测分析的精度。这种做法在样本量足够的情况下是非常合理的。但是,在某些情况下,模型的总数是不够的。在这样的情况下,保存一些样本进行测试显然不是一种合理的方式,这样会浪费保存的样本所包含的信息。

    在统计学中,已经发展了多种方法来摆脱样本量不足时存储样本板的缺点,BootStrap是一种被证明可行的方法。

    具体优化算法如下:

  • 从有工作经验的F_n中抽取一个体积为n的样板(x _ 1,x _ 2,,x _ n)。一般称为引导示例版本。

  • 用这个模板计算θ的预测值,θ * = θ (x _ 1,x _ 2,,x _ n)。一般称为BootStrap估计。

    将整个过程(1)和(2)重复k次,从而得到k个BootStrap样本和k个BootStrap估计。

    如果用所有样板S来估计实体模型的预测分析偏差,记为e_s (S),实体模型的具体预测分析偏差记为e_s(实际)。选择带插入的抽样方法,从初始模板中抽取一个BootStrap模板R,使用这组模板模型,然后用原始模板S估计实体模型的预测分析偏差,结果记为e_R (S)。这样,e_R (S)-e_R (R)就是e_S(实际)-e_S (S)的一个很好的估计。

    为了提高估计的精度,整个过程重复k次,如下所示:

    当样本量较小时,可以使用所有样本模型,然后用上述公式估算实体模型的真实预测和分析偏差。

    参考文献:信用评分:模型与应用。石青岩,秦万顺。

    转载请注明原文地址:https://juke.outofmemory.cn/read/197135.html

    最新回复(0)