年关将至,由欠债问题引发的“P2P跑路潮”再次引来关注,其核心原因是金融机构缺乏对借款人进行有效的信用风险管控。而美国ZestFinance公司利用大数据进行风险管控的案例正好给国内想要利用技术手段进行信用风险管控的金融企业以启发。
作为一家创新型的科技 金融 公司,ZestFinance自创立以来,由于其独特的商业理念而不断受到投资界和互联网金融领域的瞩目。于2013年获得全球第三方支付平台PayPal联合创始人、美国知名投资人彼得·泰尔(Peter Thiel)2000万美元的投资。ZestFinance认为,它的使命是为每一个人创造公平而且透明的信用信息。ZestFinance最初的服务对象是只能使用高利贷的人群(称为借贷日贷款人群),通过 大数据 挖掘出他们的信用信息,帮助他们享受正常的金融服务。ZestFinance假定每一个消费者都是“好”人,希望通过搜集证据,证明信贷信息不完整人群的真正的信用状况,进而帮助他们实现享受正常金融服务的权利。
和传统征信相同,ZestFinance公司大数据征信对消费者的信用评估也是基于两个基本面的信息:消费者的还款能力和消费者的还款意愿。所不同的是,传统征信中,数据依赖于银行信贷数据,而大数据征信的数据并不仅仅包括传统的信贷数据,同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征,这些相关性描述风险特征的抽取与筛选是ZestFinance的技术核心(如图一)。相比于传统征信数据的强相关性,这些大数据征信的数据和消费者的信用状况相关性较弱,ZestFinance就利用大数据技术搜集更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据,可以对传统征信无法服务的人群进行征信,实现对整个消费者人群的覆盖。
图一 大数据征信视角和传统征信视角的比较
优于银行的大数据挖掘技术
ZestFiance的优势在于其强大的数据挖掘能力,能开发出新颖的信用评估模型,从大数据中挖掘出更多不易被发现的消费者信用信息。
不同的应用对大数据有着不同的理解,目前也没有一个统一的概念。ZestFinance的创始人和首席执行官梅里尔(Douglas C.Merill)认为“数据多”并不是“大数据”,能够利用IT技术将碎片化的信息整合起来才能形成真正有用的大数据。这种对大数据的理解特别适用于征信业,因为征信的基本过程也是将分散于不同信贷机构看似用处不大的局部信息整合成为可以完整描述消费者信用状况的全局信息。
值得指出的是,ZestFinance虽然利用大数据技术进行征信,但是主要利用的还是结构化的大数据,对于复杂的大数据类型,例如文本数据和社交网络数据,利用得比较少,主要原因是由于这些复杂的大数据和ZestFinance所服务的消费者的信用风险相关性太弱了。这种现象其实也被其他互联网金融的征信实践所验证,例如最大的互联网P2P公司Lending Club最早从脸谱(Facebook)平台登陆信贷市场,希望通过对社交网络的数据进行信贷审批,结果效果很差,难以为继,最后只好回归传统的信贷手段发展。
ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力,将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。
关键在于多维的数据和算法
ZestFinane的核心业务是消费信贷审批,主要客户是次级贷消费者,主要的竞争对手是银行或典当行。ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力,将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。
传统的信用评分模型一般拥有500个数据项,从中提取50个变量,利用一个预测分析模型做出信用风险量化评估。而在ZestFinance的新模型中,往往要用到3500个数据项,从中提取70,000个变量,利用10个预测分析模型进行集成学习或者多角度学习,进而得到最终的消费者信用评分。
如图二所示,ZestFinance的数据源是大数据,可以生成数以万计的风险变量,然后分别输入不同的预测模型中,例如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型等。每一个子模型都从不同的角度预测个人消费者的信用状况,克服了传统信用评估中一个模型考虑因素的局限性,使预测更为细致。
机器学习方法在生产、科研和生活中有着广泛应用,而集成学习则是机器学习最近的热门研究方向。集成学习是使用一系列算法模型进行分析预测,并使用某种规则把各个模型分析结果进行整合从而获得比单个算法模型更好的预测效果的一种机器学习方法。
如果把单个模型比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。由于融合多种信息和综合多种决策机制,经过集成学习得到的分析预测要明显优于单一模型。不同角度的信息存在关联,各自包含互补信息、多角度学习的过程,相当于一个不断搜集证据的过程,加强互补信息,进行信息融合。例如,两个独立的评分模型对利润提升的能力分别是16.9%和9.4%,传统信用评估中,第二个模型可能被弃用,但如果发现这两个模型分别包含互补信息,将这两个模型的结果进行融合,可以将利润提高至38%。
这些多角度学习中每一个子模型也没有采用传统的逻辑回归, 而是机器学习中的其它的预测模型(该模型的细节对于ZestFinance是核心机密)。ZestFinance的信用评估中没有利用逻辑回归模型的原因是大数据征信的数据比较零碎,而且变量过多,以及所抽取的风险变量分布不能满足正态分布。
抓住信贷审批管理就能控制80%的风险
根据调查,80%左右的信贷风险来自信贷审批环节,一旦消费者获得信贷,后续的管理只能控制20%的风险,由此可见科学的信贷审批管理十分重要。开发高质量的信贷审批评分模型,进行科学的审批风险管理,可以大幅降低坏账率,并取得比较好的经济效益。虽然ZestFinance并未透漏其坏账率,但在实际应用的过程中,和其竞争对手银行或典当行的放贷者相比,还是取得了一些不错的结果。
1.获得贷款顾客的成本是竞争者的25%。根据JMP2012的行业报告,对于一个在线的借贷者来说,获取一个顾客的平均花销应该在250美元和500美元之间。2014年,通过ZestFinance的服务,获得顾客的成本稳定在100美元左右。
2.首次还贷违约率(First pay default, FPD)低于竞争者。从2012年初起,ZestFinance的首次还贷违约率还在不断波动,有时高于第三个竞争对手,随着模型的不断改进,到2013年已基本稳定,明显低于三个竞争对手。
3.不断提高客户的投资回报率。ZestFinance最初的投资回报率在100%左右,随着模型的不断改进,目前的客户投资回报率达到了150%以上。
4.投资回报率高于竞争对手。图二展示了ZestFinance在不同时间和其竞争对手在投资回报率方面的比较,可以看出ZestFinance的投资回报率明显高于行业标准和其竞争对手。
图二 ZestFinance的投资回报率高于竞争对手
关于ZestFinance信用评估模型
ZestFiance的优势在于其强大的数据挖掘能力,开发出新颖的信用评估模型(见图三),从大数据中挖掘出更多不易被发现的消费者信用信息。
当ZestFinance不断地进行数据搜集和增加新数据源的同时,评分模型也在不断更新。如表一所示,从2012年到目前,差不多每一个季度就会新推出一个新的信用评估模型。而且模型是以每一位不同的开发者命名,目前已经有14个模型。ZestFinance评分模型的改进也提高了其信用风险评估水平。虽然这些新的模型仍然会遇到数据充足性和数据可得性的挑战,但是模型的持续改进还在进行中。
图三 ZestFinance的信用评估模型解读
ZestFinance最早从事的是信贷审批,仅有信贷审批评分模型,随后不断细化其评估模型来支持不断推出新的信用风险业务。如表一所示,2013年第一季度推出了催收评分,2014年第二季度推出了市场营销评分;2014年推出了汽车贷款和法律催收,目前已经开发出八类信用评估模型,用于不同信用风险评估服务。
表一 ZestFinance信用评估模型
丢失数据(Missing data)指的是机器学习中某一些数据项因为种种原因造成了缺失,较多的丢失数据会给建模过程带来挑战。由于ZestFinance利用多维度的大数据,所以丢失数据的现象更加突出。ZestFinance处理丢失数据也有其独特之处。首先ZestFinance不断改进其评分模型,增强其处理丢失数据的能力,最新的评分模型可以处理超过30%的丢失数据。其次,ZestFinance另辟蹊径,充分利用丢失数据之间的关联、和正常数据的交叉,探寻数据丢失的原因。通过这样的深耕细作,获得了一些有用的消费者信用信息。当然,这种做法要求使用于特定环境,要结合信贷业务,并对消费者的行为模式有深入的理解。
大数据征信对中国征信业的启示
ZestFinance最初的服务对象是只能使用高利贷的人群(称为借贷日贷款人群),通过大数据挖掘出他们的信用信息,帮助他们享受正常的金融服务。ZestFinance假定每一个消费者都是“好”人,希望通过搜集证据,证明信贷信息不完整人群的真正的信用状况,进而帮助他们实现享受正常金融服务的权利。
相比而言,目前国内的信用风险管理,惩罚性太强,一种类似“有罪推理”的思路大行其道,这种方式可能简单有效,但是并没有把征信的作用全面发挥出来。征信的真正作用不仅仅是惩戒失信,更重要的是褒扬诚信。ZestFinance为所有的消费者挖掘信用,用科技的力量推动普惠金融的发展,打破信贷机构为富人服务的怪圈。
定位于特定的服务人群也是ZestFinance成功的关键。ZestFinance的主要服务对象是约占人口5%的、信用评分在500分以下的次级贷人群。通过对这部分消费者的深入理解,筛选大数据描述信息,所开发的也是针对这部分人群有效的信贷审批模型。在机器学习领域没有特别通用的分析模型,但是往往有对特定范围内有效的模型。所以,合理地定位服务人群和深入理解服务对象是开发征信分析模型乃至开展征信服务业务成败的关键。
另外,ZestFinance优于其竞争对手和传统信贷机构的一个重要的原因是强大的信用评分模型的开发能力:基于多角度学习的预测模型,模型及时更新而且不断细化。相比而言,中国的信贷审批,或信用风险管理,层次不齐,从定性判断到简单的量化决策都有,总的来说量化分析不足,而且征信机构的信用评分还未推出。只有加强对量化的信用风险分析技术研发投入,才能真正实现对消费信贷的专业风险管理。同时,值得强调的是, 大数据时代 ,没有现成的免费午餐,数据和模型需要提炼,需要数据科学家的人工参与,即使把ZestFinance的模型拿到中国来,也不能直接用。对数据和消费者的理解和数据挖掘技术的掌握都是建模过程中不能省掉的功课。
(文/中国人民银行征信中心博士后 刘新海、Turbo Financial Group联合创始人、首席风险官 顾凌云、中国联通网络技术研究院高级工程师 丁伟;本文仅代表作者个人观点,与所在单位无关。)
(关注更多钛媒体作者观点,参与钛媒体微信互动(微信搜索“钛媒体”或“taimeiti”))