在建立个人信用评分的实体模型时,不仅要有足够的自变量来定性分析银行信贷申请人的个人信贷行为特征,而且模型模板的体积也要达到一定的总量。
一般来说的样本量越大,所创建的实体模型的精度或预测分析能力越高,实体模型越稳定。
目前,还没有一个根据基础理论计算出的最优数来建立一个预测分析精度高、鲁棒性好的个人信用评分的立体模型。但根据多年的模联实践活动,不少海外专家学者明确提出了一些工作经验法则。
这个工作经验法则告诉大家谜题的重要性不取决于模型样本量的大小,而取决于不良客户样本总数。一个由50000个好客户和500个坏客户组成的模型模板并不比一个由5000个好客户和500个坏客户组成的模型模板信息量更大,因为坏客户模板所包含的信息内容是创建个人信用评分实体模型时关注的重点。
在具体的模型整体中,一般的好客户总数总是远远超过坏客户总数,所以模型整体中的坏客户总数是个人信用实体模型成功建立的首要条件之一。
在征信体系发达的国家,模型样本量不够应该不是什么严重的问题。
这个国家可以用许多方法来处理这个难题:
处理模型样本量不足的方法有两种:
当样本数量不够时,一个最容易记住的解决方案是:将不同金融机构的同一商品的样本盘组装起来,创建一个实体模型。
例如,当一个银行业希望为其销售的一种透支型卡创建一个个人信用评分的实体模型时,可以将该金融机构在不同地区的分支机构的客户数据结合起来,这样就可以在样本总数中考虑模型的规定。
特别是这种组合并不等同于整体的做法,与一般创造个人信用评分的做法相反。在创建个人信用评分的实体模型时,为了提高实体模型的预测和分析精度,当整体内部差异很大时,如果样本板的体积足够大,具体做法是将整体分成若干个内部一致性好的子整体单元,然后对每个子整体做一个模型。
海外专家学者对不同客户的全部数据信息进行汇总后创建实体模型的实际效果进行了一些科学研究。绝大多数经验分析表明,装配后创建的实体模型的精度通常会降低。
精度下降的原因会来自两个层面:
模板分为两部分,一部分用于建模,另一部分用于测试。
这样做的主要目的是防止另一组样本同时用作训练样本(以创建实体模型)和测试样本,从而过度估计预测分析的精度。这种做法在样本量足够的情况下是非常合理的。但是,在某些情况下,模型的总数是不够的。在这样的情况下,保存一些样本进行测试显然不是一种合理的方式,这样会浪费保存的样本所包含的信息。
在统计学中,已经发展了多种方法来摆脱样本量不足时存储样本板的缺点,BootStrap是一种被证明可行的方法。
具体优化算法如下:
为了提高估计的精度,整个过程重复k次,如下所示:
当样本量较小时,可以使用所有样本模型,然后用上述公式估算实体模型的真实预测和分析偏差。
参考文献:信用评分:模型与应用。石青岩,秦万顺。