1. 模型构建

大魔投智能策略定位使用机器学习方法去学习挖掘信标特征和逾期率之间的规律特点,筛选掉高逾期概率的信标,保留低逾期概率作为投标池,以达到高收益低逾期的投资组合。

发生逾期就可能产生坏账,影响用户最终收益。逾期情况的出现有主动逾期和被动逾期两种。主动逾期是指借款人故意隐瞒个人自身情况信息等,故意不还款。被动逾期这种情况借款人比较注意个人信息情况,按照逾期可以偿还,但是出现特殊情况,造成财务紧张,支付能力下降。一般是发生比较大的变故,比如离婚、失业、遇到重大突发事故等。被动逾期发生后,借款人的还款意愿比较强烈,最终还款的概率比较大。因此这类逾期带来的最终坏账概率较小。坏账主要的风险在于主动逾期的人员。

因此,我们设计通过数据挖掘分析,构建模型,识别信标特征、借款人信息等与逾期率之间隐含的特点规律,筛选淘汰主动逾期标的。这样,我们能够更加快速的建立标的池,提供用户可投的机会,加快资金周转率,提高整体收益率。

1.1 模型指标

识别分析坏标逾期与借款特征、用户特征、用户历史借款行为等之间的特征规律,分析信标中用户性别、年龄、借款次数、还款情况、标的评级等31个维度的信息与30天逾期之间的相关关系,依据相关关系,赋予31个维度不同的选择权重,构建机器学习预测模型。

模型使用的特征维度:

  1. 1、借款特征(7个):借款金额、借款利率、借款期限、投标人数、初始评级、是否首标、借款类型
  2. 2、借款用户特征(6个):年龄、性别、学历、毕业院校、学习形式、注册时间
  3. 3、借款征信特征(5个):户籍认证、手机认证、视频认证、学籍认证、征信认证
  4. 4、用户历史借款行为(13个):成功借款次数、流标次数、撤标次数、失败次数、正常还清次数、逾期1-15天还请次数、逾期15天以上还清次数、历史最高负债、累计借款金额、剩余待还本金、待还金额、最后一次借款次数、历史成功借款金额。

1.2 模型学习

按照10折交叉验证的方式,将数据集随机采样,组成10组训练集、开发集和测试集。每组数据中训练集随机采样总数据集的80%,开发集10%,测试集10%。

在这十组数据集的训练集上,训练机器学习的模型和参数,在开发集上验证,在测试集上进行模型预测结果评估。以此迭代往复,寻找性能表现好的模型,经过上万次的迭代分析,搜索超参数,确定性能表现最好的模型作为最终模型。

1.3 模型评估

大魔投智能策略模型的目标是判断某一支标是否会发生30天的逾期,所以,这对模型来说就是一个概率分类问题。对分类问题,常用的评估标准是采用分类正确率进行评价,即测试集中多少比例的样本归入了正确的类别,正确率越高代表模型越好。

以我们模型为例,我们的模型可以判断一支标是否会发生30天逾期的情况。针对一支标,有两种状态:阳性(发生30天逾期)和阴性(不发生30天逾期)。模型判断的结果为分两种:阳性(发生30天逾期)和阴性(不发生30天逾期)。一支实际的信标真实发生逾期与模型预测结果共有4种可能的组合,即(信标实际发生逾期情况,模型预测逾期情况)=(阳性,阳性)/(阳性,阴性)/(阴性,阳性)/(阴性,阴性)。分别称为命中、漏报、虚报和正确拒绝。

正确率是正确判断出一支标是否发生逾期的概率。召回率是实际产生逾期的标中被模型预测出发生逾期的概率。精确率是模型预测出发生逾期的标并且这个标实际发生了逾期的概率。虚报率是真实没有发生逾期的标被模型预测判断为会发生逾期的概率。

2. 模型实时数据

大魔投最新智能策略模型更新于2019.1.1日,模型基于2017-7-28日到2018-11-30日之间投标的335616支信标投标数据学习生成。模型的目标是预测信标借款成功后,会不会发生30天的逾期。新模型在测试数据集上,预测是否发生30天逾期的平均正确率(Accuracy)是91.99%,精确率(precision)是85.82%,召回率(Recall)是93.26%。

(1)30天坏账分布(魔镜等级)

(2)30天坏账率变化(魔镜等级)

(3)坏账率曲线

3. 模型优化

3.1 模型进化

大魔投智能策略模型将根据通过大魔投投出去的标逾期情况,定期学习,动态调整参数,严控逾期率,稳定收益率。

3.2 分类进化

后期,将对不同利率水平的标,进行单独建模测试,优化不同利率标的逾期率,从而进一步提升大魔投整体逾期控制率,提高收益率。