金信网官网客服电话:400-890-7777
投资理财资讯 > 互联网金融 > P2P平台 > 安心贷 > 科学判断平台风险新招:监测P2P数据波动

科学判断平台风险新招:监测P2P数据波动

2017-12-15 14:26:00
科学判断平台风险新招:监测P2P数据波动

通过数据来判断一个平台的经营状态是很多投资人常用的方法之一。通过待还金额,资金净流入来观察和跟踪平台是一个非常有效的方法。但是实际上,关于平台的指标很多,如果只判断一个或几个指标可能会遗漏一些其他重要的信息;而对平台所有的指标进行判断,往往比较耗费时间,并且很多情况下无法得出一个系统性的结果。

P2P平台所披露的信息数据庞杂无序 需要深度分析挖掘

本文从数学的角度,利用模式识别中一种降维的方法(PCA),通过线性组合得出一些综合性的指标,从这些新的指标和角度来对平台进行分析。有经验投资人可以学会通过各种渠道收集平台信息,甚至通过数据的异常波动来对平台的风险作出判断。最终,这套分析方法将回答这样一些问题:平台的所有指标中,哪一种更重要?哪一类指标可以反映平台的整体走势?对于每一种分离出的成分指标,它们都显示出平台的哪些与众不同的特点?

PCA的概念

主成分分析法(Principal Component Analysis,PCA,也称为 K-L 变换)是模式识别中一种常用的线性组合方法,该方法依据样本点在空间中的位置分布,把样本点在多维空间中最大变化方向,即方差最大方向,作为判断向量来实现图像数据的压缩和特征提取。由概率统计的观点可知,如果一个变量的方差较大,那么这个变量蕴含的信息量也就较大,当变量的方差等于零时,该变量就是一个常量,包含的信息量为零。所谓主元是指原始数据的m个变量经过线性组合(或者映射)后得到的变量,该映射后得到的变量方差为最大(第一主成分)的一部分。各个主成分彼此正交,从第一主成分开始,各主成分根据方差的大小按顺序排列 (对应的特征值按大小顺序排列)。对于特征值为 的主成分,该主成分的方差也为 ,该值代表样本点在这个主成分方向上的离散程度,主成分的贡献率可由公式(1)表示

 

把主成分中特征值 比较小或者方差比较小的部分当作是包含的噪声,在后续分析中这些变量不引入到模型中,这样可以减少需要分析的主成分,从而达到降维去噪的目的。任意两个主成分可以作为判别分析平面,因此能将变量从高维空间投影到二维平面及其它维空间。通常选取几个方差较大的主成分作为判别分析空间。

PCA原理

令 x表示为环境中的m维随机向量。假定x的均值为零,即

令w表示为m维单位向量,x在其上的投影为y。这个投影的定义为向量x 和

向量w的内积,表示为

 

满足约束条件:

 

而主成分分析法的目的就是要找到一个权值向量 w,从而使得表达式 的值最大化, 表示为

 

依据线性代数的理论,可以知道为了使 值最大化, w应该满足下面的公式

 

即使得上式(5)最大化的w是矩阵 的最大特征值相对应的特征向量。

数据选择

从数据库中选取数据较为充分的平台,取其2012-01-10到2015-07-14之间数据。这些数据维度包括:成交量,平均投资金额,平均借款金额,投资人HHI,投资人数,借款人HHI,借款人数,待收人数,十大投资人待收占比,收益,平均借款期限,资金存量,资金净流入,待还人数,十大借款人待还占比,总标数,一共16个指标。

 

该平台2012-01-10到2015-07-14之间的数据

数据预处理

由于部分数据存在不连续性,并且大部分金融数据都具有比较大的噪声。所以需要对数据进行平滑,本文从采用的指数平滑法。对于多个指标单位不一样,采用Z-score的标准化处理,将数据转化为无量纲的纯数值。

采用PCA对数据进行降维

根据经验法,若前K个一般主成分的方差贡献率达到80%以上,则只需要提取前K个。

首先对16个指标矩阵进行bartlett检验,得知p的值很小,并且bartlett值足够大,所以数据适合做主成分分析。

对指标矩阵做主成分分析提取主成分,16个特征根,以及各主成分的方差贡献率和积累方差贡献率如下表。有用前4个主成分的累计方差已经到达80%,说明第前4个主成分的变异基本上反映了全部指标的波动。

 

 

则第t个指标对前4个主成分的方差贡献率为:

 

 

结果分析

第一主成分:通过符号的异同,显示出这个成分主要是由平台人气,分散度线性组合而成。由于显示人气的一些指标多,符号一直为正且权重大,说明该指标主要是显示出这个平台的人气。同时第一主成分占的占方差贡献率最大,所以波动率也最大,即变化幅度比较大。

该成分中权重为负的指标为投资人HHI,借款人HHI,10大投资人待收占比,10大借款人待还占比,这些指标的数字越大,则分散度越低。而权重为正的指标中,平均借款金额、收益率和期限权值较小,而这几个指标本身波动不大。而其余指标大体上反映平台的交易规模和人气,会随着平台的发展逐步升高。

因此这一成分的数值大体上表示平台的业务规模大小,并且在整个时间序列上,该数值的变动较大。见下图。

第一主成分

第二主成分:这一成分中,10大借款人待还占比和平均借款期限的权重比较大。从图中可以看出,该平台从2014年年中到2015年年中这段时期内,借款集中度与平均借款期限都有明显的上升。

第二主成分

第三主成分:平均借款金额和借款人HHI的变化相对波动较大。

第四主成分:其中投资人HHI和10大投资人待收占比的权重较高。虽然波动也比较大,但是已经是第四主成分,并且方差占的贡献率也很小,说明该平台投资人的分散度是比较稳定的。

从下图中可以看出,第三和第四组成分波动不大,相对比较稳定。

第三主成分

第四主成分

对平均加权方差贡献率比较高的:成交量,借款人数,10大投资人待收占比,资金存量,总标数,说明这些指标的方差比较大,即变化幅度大。而像收益率,借款期限这两个指标的贡献率比较低,也即变化幅度比较小。

结语

通过上述案例中的前2个主成分,我们可以清楚的看到,将反映平台交易规模和人气的指标赋予较高的权值,可以得到一个反映平台发展状况的综合指标;另外,该平台在一段时间内的借款集中度和平均借款期限有较大程度的上升,而这一现象恰好反映了那段时间该平台产品策略上的调整。




标签:

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。