P2P——拍拍贷用户逾期行为分析

分析背景

P2P,全称peer to peer,网贷包括个体网络借贷和网络 ** ,指个体和个体之间通过互联网平台实现的直接借贷,属于互联网金融行业中的一部分,因此也随着互联网的高速发展而快速崛起。

拍拍贷成立于2007年,总部位于上海,是我国第一家网络信用借贷平台,目前累计注册用户8300万人,累计借款用户1340万人,下面就抽取拍拍贷期2015.01-2017.01中32万用户进行数据分析。

一、分析目的

1.确认用户画像。

2.哪些用户逾期率较高?

3.如何减少逾期问题?

二、数据分析

1.分析维度

a.用户基本信息:性别、年龄等、信用认证信息等。

b.用户借款相关信息:授信金额、日期、期限、利率等。

c.用户还款相关信息:历史正常还款、逾期还款等。

2.理解数据

所选数据为拍拍贷2015.01-2017.01中借款用户数据,总计共328554条数据,共21个标签。

3.理解业务指标

a) 逾期天数DPD:自应还日次日起到实还日期键的日期数。

b) 逾期期数:自应还日次日到实还日期间的日期数,正常资产用C表示,Mn表示逾期n期,例M1逾期1期,M2逾期2期……

c)逾期率:历史逾期还款期数/历史正常还款期数

4.数据清洗

先对数据进行整理清洗,根据分析维度留下有用的数据标签:年龄、性别、借款金额、借款期限、借款成功日期、认证方式、历史正常还款期数、历史逾期还款期数,将其他标签暂时隐藏。

接着找到数据中的重复值、缺失值、异常值并进行整理修改,使数据整齐。

再用vlookup函数对借款金额、期限,用户年龄进行分段处理。

对初始评级进行改进,将A、B、C、D、E、F五个等级用数字1、2、3、4、5、6来代替,以便后面计算使用。

用countif函数对认证方式进行个数统计。

5.建模分析

1)用户画像

a.用户性别分布

用户性别分布上,男性占比67.55%,女性占比32.45%,男性用户比女性用户高达一倍之多。

b.用户年龄分布

在年龄层方面,用户主要集中在22-31岁,占比高达57.23%,借款人总体以年轻人为主。

c.贷款金额分布

平台主要以 ** 为主(100元-50000元),占比达99.97%,金额主要集中在1000元-10000元,其中1000元-5000元占比最高。

d.贷款月份分布

由图见,2015.01-2017.01中,贷款用户及数量逐渐增多,虽然2017年仅有1月份的数据,但是增加量依旧很多;从月份上看,每年的10-12月和次年1月这四个月的贷款量明显增多,并且是逐渐增多,可能是双十一、年底购物囤货、春节等因素导致用户消费增多,所以资金紧张进而增加贷款数量和用户。

e.贷款期限分布

平台用户选择的借款期限主要以长期(12个月-24个月)为主,其次是中期(6个月-11个月),期中在中长期借款中以6个月的期限为主,在长期借款中以12个月的期限为主。

f.借款利率分布

贷款率主要以22、24为主,两项基本占总体的80%以上。

g.初始评级分布

有图可见,用户初始评级主要以C、D为主,用户资质属于中等水平。

h.借款类型分布

在借款类型中,电商类型最少,只占总体的0.33%,其他三个类型APP闪电、普通、其他基本相同。

i.信息认证分布

用户信息认证个数主要集中在0-2个,期中0个和1个认证认证数量最多,占总体的80%以上;在不同认证方式上,用户多选择手机认证和学历认证,占比达70%,淘宝信息认证最少。

小结:

1.使用拍拍贷的用户主要以男性为主,年龄主要集中在22-31岁,偏年轻化;

2.整体以 ** 为主,授信金额集中在1000元-5000元,金额较低,与初始评级和认证信息相关;

3.初始评级主要以C、D等级为主,评级属于中等水平,信息认证上以0-1个为主,信息认证个数较少,从而也导致授信金额较小;

4.用户在选择借款期限时,多为6期和12期,还款期限属于中长期,借款利率以22、24为主。

5.2015年-2017年,借款用户及数量逐渐增多。

6.2015和2016年中,每年四个季度的借款需求基本呈上升的趋势,且在第四季度即10-12月,加上次年1月,呈明显上升的状态,可能与年底购物等有关,消费力增强导致用户资金紧张,所以平台也可以针对相应的季度月份增加资金来保证贷款业务的稳定。

2)逾期相关性

虽然借款用户以男性为主,但是男性逾期用户相比女性较低,女性有53%的用户都有逾期行为。

用切片器来从性别中进行选择,找到不同性别在不同年龄段、初始评级和信息认证个数下的逾期分布情况。

用户整体看,除了17-21岁用户,其他年龄段用户逾期都在15%以上;在信息认证个数中,3-5个逾期占比较高;初始评级中C、D评级逾期占比最高。

从用户不同性别中看,各项逾期分布情况和总体用户逾期分布情况差异不大,基本一致。

3)逾期率相关性分析

a.性别与逾期率的相关性

利用计算公式计算逾期率,逾期率=历史逾期还款次数/历史正常还款次数,计算得平均逾期率为4.25%,由此可得,男性逾期率低于平均值,而女性逾期率不仅高于男性还高于平均值。

b.借款属性与逾期率的相关性

借款金额除了0-1000元,其余以情侣都在15%以上,其中借款金额在5000-10000元最高;借在四个借款类型中,普通类型借款逾期率相对较高;在借款期限中,长期借款的逾期率最高;利率在20-24之间的用户逾期率最高。

c.初始评级与逾期的相关性

由图可见,初始评级与逾期率基本呈负相关,初始评级越高逾期率更低,评级越低逾期率更高,D、E、F三个评级逾期率都已超过平均逾期率,且E、F评级高出得更多。

d.认证个数与逾期的相关性

由上图可见,认证个数与逾期率并没有明显的相关性,反而信息认证个数为0-1个的逾期率相对较低低,信息认证个数4-5个逾期率较高,认证6个比认证0个的逾期率还要高,分析是否正确,后面进行深入分析。

根据逾期分析,可以发现,女性用户的逾期风险比男性用户高;初始评级与逾期率基本呈负相关,初始评级越高,逾期风险会越低;个人信息认证个数与逾期率,虽然看上去逾期率随认证个数呈先上升后下降的趋势,但是却出现了不太合常理的问题,后面继续进行深入分析来看这种现象是否正确。

3)深入分析

a.深入分析女性逾期率较高情况。

前面分析中得出结论,虽然女性用户相对男性较少,但是逾期率确实较高的,导致这一结果原因有哪些,首先从用户年龄来看。

上图可见,每一个年龄层上,女性的逾期率都要高出男性逾期率很多。

再从贷款类型上观察:

借款类型上看,电商类型男女逾期率基本相同,其他类型女性表现的都要更高。

整体上看,女性在A、B、C三个等级的占比达到60.99%,比男性占比49.63%高出了10个多点,而低等级占比男性低。从信用等级上看,初始评级并不是影响女性逾期率高的因素。

下面从其他几个因素来看:

从借款金额、期限、利率和信息认证个数来看,男女用户之间的各项指标与平均指标并没有太大的差异,那么就可以考虑是否为信息认证个数所导致。

从折线图可以看出,相比男性,女性用户在没有做任何信息认证中的占比要高很多,此结果可能会是影响女性逾期率高的因素。

b.解决前面遗留问题

将初始评级算出平均等级:

信息认证为0个的用户借款金额分布:

借款金额分布:

由表可见,信息认证个数为0个的用户平均评级是3.45,即主要以C-D评级为主,虽然高于平均值,且为总体最高水平,但借款额度相比其他最低,总体以 ** 为主,占比高达99.92%,期中借款金额在1000-5000占比达59.28%,0-10000总占比98.82%,借款金额较低,平均借款期限最长,相对而言还款压力较小,所以导致逾期率会较低。所以认证6个比认证0个的逾期率要高情况并不属于错误现象。

三.结论

1.用户画像:平台用户以男性为主,年龄集中在22-31岁,偏年轻化;整体以 ** 为主,授信金额集中在在1000元-5000元;信息认证个数多为0-1个,初始评级多为C、D等级,认证个数较少,评级属于中等水平;借款期限多为12个月期限,其次是6个月;2015年-2017年,借款用户及数量逐渐增多。

2.在整个用户中,虽然女性用户相对较少,但逾期率和逾期占比都相对较高;借款金额在5000-10000元的用户逾期率相对较高;普通类型借款用户、借款期限为长期、利率在20-24之间的用户逾期率最高;初始等级越高逾期率越低,呈负相关;逾期率随信息认证个数增多先增加后下降。

四.建议

1.平台可以考虑在借贷过程中,提高对女性资质审核和信息认证方式,其次可以根据性别做出相应利率的调整。

2.提高用户借款前的信息评审,提高信息认证个数,对于信息等级低用户可以降低授信额度,以降低逾期率。

五.商业报告

1.分析背景

2.分析目的

3.用户画像

4.逾期相关性

5.女性用户逾期问题

6.结论建议

扫码免费用

源码支持二开

申请免费使用

在线咨询