2011年,整个中国的P2P公司才几十家,截至2016年1月底,累计平台已达到3917家,行业发展可谓迅猛异常。但众所周知,P2P行业在高速发展的同时,问题平台层出不穷,根据网贷之家的数据,截至2016年1月底,累计问题平台已达1351家。随着触目惊心的“E租宝”事件,周围的小伙们一度“谈P2P色变”。
作为数据分析人员,我参与过不少金融领域的分析和预测。随着P2P跑路的频发,我发现身边竟然也有在P2P投资中血本无归的朋友,不少人问我:倒闭或跑路平台有什么共同特点?在跑路前有啥征兆?怎么避雷?我萌生了通过大数据分析来辨识问题平台的念头,或许能帮投资者避免重蹈覆辙。
我所在的公司是一家大数据公司,在金融领域也有部分业务,作为金融行业的老人,公司创始人兼金融总裁刘军伟一直不看好P2P行业的这种野蛮生长,并产生了“对P2P平台经营风险进行量化分析”的念头,希望通过基于大数据对P2P进行风险预测分析。这与我的想法不谋而合,于是,刘总在闲暇之时便开始带着我们技术团队的几个小伙伴做起了分析。
公司一直关注P2P行业发展,积累了2000多家平台的数据,通过数据挖掘和机器学习的方法,我们对这些平台进行了建模,在对整个P2P行业发展趋势预测分析基础上,还通过聚类和机器学习的方法预测了一批潜在跑路和倒闭的平台。事实证明,我们对该行业发展曲线的预测与现实一致,而当时预测出的一些问题平台也确实跑路或倒闭了。
在这里,我结合当时做的分析和预测,给大家简要说几个考察P2P平台的关键维度,让你1分钟识别跑路平台!
1.平台待收金额
平台待收金额代表了平台上放贷人未收回欠款的总额。一般而言,运营良好的正规平台待收余额波动较小,相对平稳,而年底较容易出现集中提现的情况,待收余额会有下降的趋势。如图1,是当时我们对国内300家主流P2P平台待收余额走势的预测。
图1:对国内300家主流P2P平台待收余额走势的预测
图2:问题平台待收余额走势预测
如果待收余额大幅度下降,只减不增,则可能是平台遇到了瓶颈,交易量下降。如果平台只借不还或者拿新借款还旧借款,自然会出现待收余额只增不减的情况,如果这一数据在短时间内迅速提升,则平台很有可能是预备跑路的欺诈平台,如图2是当时对问题平台待收余额走势的预测,波动较大。
举例来说,当我们在分析样本平台中盛金服的数据时,发现其数据与图2预测的趋势基本吻合。后来,事实证明,该平台在2015年末出现提现困难,随后人去楼空。
2.平台新增借款
新增借款在很大程度上反应了一段时间内平台的发展情况,稳中有升比较正常,新增借款骤然增加,资金链断裂、跑路风险较大;骤然减少,自融、非法集资的几率较大。
2015年12月,好借好贷被爆出存在自融嫌疑,且平台76%借款来自同一借款人,其平台新增借款趋势与我们当时预测的结果基本一致。
图3:对国内300家主流P2P平台新增借款走势的预测
图4:问题平台新增借款走势
3.平台投资金额
投资金额是平台当天的投资总额,一般而言,投资金额也是稳中有升,如图5所示。如果投资金额连续下降,则平台倒闭的风险很大,如图6所示。包括中盛金服、好借好贷在内,以及2015年9月被爆提现困难的平台沃资本,预测的数据维度走势都与问题平台走势相符。
图5:对国内300家主流P2P平台投资金额走势的预测
图6:问题平台投资金额走势
4.平台投资人数
投资人数指的是平台的活跃投资人,平台投资人数如果如图8的走势一样,出现连续下降的情况,那么平台的资金链容易断裂,倒闭风险很大。不少问题平台都符合这一趋势,结果也均是大同小异,符合问题平台趋势的基本最后以跑路、倒闭出现提现困难等告终。
图7:对国内300家主流P2P平台投资人数走势的预测
图8:问题平台投资人数走势
上面提到的四个指标是辨识平台风险比较关键的几个,当然,在分析模型评价体系中,我们参考的维度不止这4个,在引入公司背景、股东信息/高管信息、经营信息等信息的基础上,我们还引入了平台多个动态数据特征:
对平台评价指标的分析分为以下7个维度:
(1)借款指数:过去90天借款总额/过去90天借款总人数;
(2)流动指数:未来90天待收总额/注册资本金*100;
(3)待收余额:代表了平台上放贷人未收回欠款的总额,如果这一数据在短时间内迅速提升,则平台很有可能是预备跑路的欺诈平台。
(4)风险准备金
当借款人无力还款或干脆跑路时,平台会用自己的风险准备金对投资者做一定程度的赔付。因此,投资者需要注意风险准备金数额,考察其是否能有效减少自己的投资风险。
可以用风险准备金与待收余额的比值与平台的历史还款逾期率相比较,如果比值大于逾期率,说明平台的准备金能够起到风险覆盖的作用,反之则说明平台无力真正意义上承担坏账风险。
(5)地域指数:当季度平台所在地区问题平台数/该季度问题平台总数*100(按省级行政单位)。
说明:地域负面指数越大,平台所在地区问题平台数量越大,地域性影响较大,投资人受舆论波及撤资可能越高。
(6)对于平台上的活跃人数和平台的待收金额,通过信息熵的方法分析平台的确定性
(7)对于问题平台的地域分析,按照地理位置的分布,建立起平台的地理图,利用图的算法,分析区域的影响及问题平台的集中程度。
因此,地域指标衡量:地域指数=平台所在地区问题平台数/问题平台总数×100(按省级行政单位)。
另外一些特征是这些特征的综合,如均值、方差、特征之比、特征信息增益等。
第二,模型的整体预测情况及维度分析。
在建立了模型的评价指标体系后,我们利用机器学习的方法进行预测。
1.首先,我们要选择使用的模型。
我们选择四种模型对我们的数据集分别进行训练:
(1)逻辑回归(logit)
(2)分类回归树(CART)
(3)随机森林(Random Forest)
(4)梯度提升树(GBDT)
在一般的二分类中,由于逻辑回归方法比较简单易用,因此我们首先选择它;由于分类回归树可以自动忽略对目标变量没贡献的属性,并且对存在缺损值的情况比较稳健,因此作为第二个模型;随机森林由于它的训练速度快,并且模型可以给出哪些特征比较重要,因此作为第三个模型;GBDT模型目前在工业界中是运用很多的一种算法,由于采用了提升的思想,其方法具有很好的泛化能力和准确度,因此我们将其作为第四种模型。
2.对四种模型的预测结果进行比较分析。
(1)首先我们采用将准确率和召回率结合起来的评估标准即F---measure
其中如下图所示:横坐标代表准确率,纵坐标代表召回率
用TP(真正例),FP(假正例),FN(假负例)
准确率:percision=TP/(TP+FP),也就是说预测出来的正例中有多少是真正的正例
召回率:recall=TP/(TP+FN),真正的正例有多少被正确的预测出来了
F—measure = 2*准确率*召回率/(准确率+召回率)
一般来说我们希望准确率和召回率都越大越好,可以知道F1值越大,则模型越好。
(2)我们用AUC曲线对模型进行比较。
如下图:横坐标代表FP, 纵坐标代表TP
AUC是用FP与TP比例曲线下面的图形面积衡量,曲线下面的面积越大,则模型越好。
通过以上比较分析可以看出:无论是采用F---measure还是采用AUC度量,GBDT模型的效果
总结:作为一个纯技术宅男,写这么多已不易。总结来说,我们通过积累的2000多家P2P平台的数据,通过数据挖掘和机器学习等方法,对部分平台进行了建模分析预测,从而得出能帮助投资者做出判断的单维度指标和风险分析预测模型。上文提到的单个维度指标应足以帮助普通投资者做出判断,综合多维度的分析和预测将更有效,当然,如果能综合运用我所描述的分析模型,预测和判断将更为精准。
最后想说的是,我所在的公司全称为北京观数科技有限公司,我们专注大数据。结合深厚的金融背景,我们目前主要为P2P、贷款公司等机构提供大数据风控和用户画像等服务。在此,我仅代表我们团队诚挚邀请对该领域感兴趣的人加入,与我们共同做更多有益的探索。