金融行业应用系统积累了非常多的客户交易数据,同时,借助大数据技术将分散在金融企业服务网络与IT系统中的海量信息与基于业务驱动的外部数据源融合,金融机构能够在金融企业内部的客户管理、信用评级、风险控制等诸多方面得到有效提升。
大数据技术和数据挖掘技术在金融业中的主要运用有:数据分析和设计构造的数据仓库;特征数据变量选择、关联属性相关数据用于预测客户信用状况;聚类、分类分析识别目标客户和市场;数据可视化过程及归并、聚类分析甄别洗钱等金融犯罪行为。
在当前“以客户为中心、以市场为导向”的激烈竞争时代,在各大金融机构准备“二次转型”的改革进程中,要想提高核心竞争能力、防范业务风险、提高业务分析数据的时效性及准确性,就必须懂得如何利用现代管理信息系统进行综合分析挖掘客户潜在价值,借助有价值的信息改进服务手段,运用数据挖掘技术实现职能化的决策支持功能管理。
了解客户行为
据广发银行信用卡相关人士介绍,2016年,广发信用卡在4800万客户体量之下,客户服务满意度始终保持在99%以上,其“秘诀”就在于近年来广发卡客服中心成功地将大数据运用于日常业务,基于客户历史行为数据的分析和预测实现与客户的双向互动。
近年来,广发卡客服中心积极推进服务创新,充分挖掘海量客户数据的价值,在开发银行大数据平台的基础上,创新推出“客户Face Time--大数据时代客户标签画像”。该业务能根据客户的历史行为对客户画像进行描画,细化分群,建立客户服务专属标签群。
随后将基于客户特征集合形成的客户标签以行业首创的“九宫格”界面的形式传输到客户服务系统前端,确保客服代表可以通过可视化、友好化的界面即时全面掌握客户画像及代表的用户特征和潜在需求,有的放矢地完成精准服务和差异化服务。
大数据时代,信用卡行业可以利用先进的互联网、云计算等新兴技术,对消费者的刷卡行为进行数据化的分类、统计,通过整理获取消费者的消费习惯、消费能力、消费偏好等非常重要的数据信息,进行深入的数据挖掘。
中国光大银行信用卡中心总经理戴兵表示,信用卡行业已经进入了精耕细作的时代,各行在数据挖掘方面已不是新手,利用数据挖掘与客户关系管理相结合,深入挖掘客户信息,对客户进行细分,针对不同客户提供差异化服务,满足客户不同需求。
通过捕捉客户的行为变化等事件信息,及时发现客户潜在需求,针对性地为客户提供个性化的活动或产品,从而达到对客户需求的精准认知与匹配,在合适的时机对客户进行营销和服务,最终促成交易。
浦发银行卡中心大数据团队已经于2014年建设了Hadoop大数据平台,实现了批量计算的应用;2015年对平台进行升级,引入流式计算,并自主设计了事件式营销系统,内部代号“游隼”(Falcon)。该系统使用Storm和Kafka等大数据技术处理数据流,使用HBase和Redis等NoSql数据库技术进行数据存储和处理。
客户一旦进行交易,平台就会捕捉到交易事件并结合用户特征与平台预定义的活动进行对比计算,如果该客户的刷卡行为与特征能够满足活动规则,则通过短信、微信、APP等渠道推送预定义好的营销信息,进行实时营销。
着眼于零售商业银行客户行为中的预测变化,可以使用一种“可伸缩的时间扫描算法”来检测高度多维的银行交易,从而检测客户消费行为中的一些变化。
前提是根据一系列标准,对相关数据进行分类,如:年龄段、性别、教育程度、家境,等等。而算法是,通过将个人客户的行为及其历史记录,与同类别群体的当前及历史行为作为比较,从而检测出行为中的时间变化点。
该算法会考虑至少230种不同类型的变化点,他们是根据上文提及的多种分类标准和消费行为转变的多种时间尺度而得到的。那些检测到的、不能用数据的随机波动来解释的变化,被认为是未来行为的可能,如单日信用卡消费热潮。
可以使用机器学习来自动检测那些经实证检验后最有用的备选指标集。研究大数据的学者Artur Dubrawski曾撰文介绍了一个大数据模型,能够精确地提前三天预测某天的消费热潮。
当然,与以往运用的数据挖掘技术不同,大数据需要更庞大的数据仓库、新兴技术来存储与支撑,这也是信用卡行业需要进一步去提高的。当然,信用卡行业也很期待大数据的来临,利用新兴技术,结合丰富的数据,深入挖掘有效信息,通过细分客群,为客户提供更好的服务。
信用评级
傳统金融机构的征信信息来源主要是央行征信,但央行征信仅有3亿多人有信贷记录,信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活,互联网行为数据是央行征信的有效补充,可以不断强化征信数据的时效性、全面性和层次性,从无形中记录用户的行为,去伪存真,还原真实的客户,从而大大提升信息的利用率和有效性。
传统上,金融机构的授信审批决策主要依赖于信贷人员的主观经验和判断,缺乏统一的标准,不利于金融机构整体风险政策的执行。
随着大数据时代的到来,银行可以通过移动互联网等渠道,取得越来越完善的贷款人信息:同时,强大的底层技术也可以完成复杂模型所带来的巨大计算量。这两点同时为信用评分模型注入了新活力,信用评分模型的进步带来的是银行坏账率的下降。
对于银行来说,贷出的款额、利息的高低、还款的时间以及方式等是可以控制的因素,而银行所不能控制的因素有借款人的收入水平、婚姻状况、消费水平,等等。这两方面的因素都会影响借款人还款能力的高低。为了更全面地评价借款人的还款能力,银行有必要同时采集这两方面的信息。
银行的信用评分模型最主要的作用是评定那些特征不大明显的借款者是否能还贷。正常情况下,银行是绝不会借钱给那些明显不能还款的客户的,而显然会还款的客户有总是各个银行争夺的对象。
图片/本文来源:《新经济导刊)》杂志
当然,信用评分系统不仅可以用于申请贷款业务,也可以用于信用卡开通业务、汽车行业分期付款业务、房地产分期付款业务,还可以用于开展保险业务评分、欺诈风险评分等诸多评分业务,等等。
信用评分模型涉及深厚的理论基础以及先进的算法思想。尽管构建信用评分模型的算法有所不同,但构建信用评分模型的原理和步骤是基本一致的,所有的信用评分模型在构建时,都需要三个步骤。
首先,根据经验或相关性分析,找出和借款人的信用风险相关的经济或财务因素,并选定算法,确定模型将要使用的函数形式;其次,根据以往的数据确定相关因素的重要性大小,并代入算法进行试验,寻找最优参数;最后,将待分类借款人的相关数据代入信用评分函数计算信用数值,根据数值的大小确定是否借款给待分类借款人。
借款人以往的还债记录、公共记录、年龄、职业、经济状况、消费水平、消费偏好、持有的银行卡数目、银行卡余额,等等,都是银行需要收集的数据。这些数据可以详细地勾画出一个消费者的形象,从而帮助银行判断借款人是否能偿还贷款。
构建信用评分模型常用的算法有:逻辑回归模型、共性过滤分析、支持向量机、判别分析、神经网络模型、决策树模型、多元回归模型、基因算法、RFM分析、存货分析、时间序列分析,等等。
在信用评分模型构建过程中,从不同的侧面看待同一个问题时,可以设计出不同的解决方案。
对于有大数据量支持的大型银行,可以使用决策树来构建信用评分模型;对于没有过多数据的小型借贷公司,神经网络将克服数据量过少的不便;判别分析适用于针对某一明确问题构建模型,而在探索性数据分析中作用不大;支持向量机则可以精确地区分可能会还款的客户和不太可能会还款的客户。
不同算法所使用的变量并不相同,对于这个算法来说很重要的变量可能并不能在其他算法中发挥作用,而不同的算法所适合的问题也不尽相同。在使用这些算法解决问题时,应注意每种算法的长处与短处,从而扬长避短,找到解决问题的最佳方案。
随着大数据模型开发技术与内部评级体系建设的深度融合,金融机构将更加广泛和全面地将评分/评级结果应用于授信审批,为贷款决策提供参考和支持。同时,大数据模型的应用,可以不断提高金融机构风险识别、计量能力。从而不断完善征信信息体系架构,为精细化风险定价提供必要的基础和土壤。
风险控制
风险监控与预警是指借助各类信息来源或渠道,通过对数据与信息进行整合与分析,运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆,准确识别风险的类别、程度、原因及其发展变化趋势,并按规定的权限和程序对问题授信采取针对性处理措施,以及时防范、控制和化解授信风险的一系列管理过程。
大数据风险模型可以快速识别贷后风险,为不同的用户设定不同的监控频率、自动筛选高风险客户,制定有针对性的贷后管理措施、贷后管理工作等。
目前我国商业银行缺乏细分客户的计量工具,催收时通常根据逾期时间长短来区分客户,导致精细化管理程度不高,无法早期区分出将要变为不良客户的高风险客户和可以主动还款的低风险客户。对前者因没有采取有效的催收手段,而使之转变为不良客户,对后者过度催收,增加了无谓的催收成本。
一个实施风险管控的例子是新加坡的UOB银行。它基于大数据成功测试了风险系统,在内存技术(数据储存在内存中)和将银行风险总计算时间从18小时降为几分钟(风险价值法)的支持下,使得“大数据”成为可能。这有助于在未来实现实时压力测试,更快应对新风险。另一个大数据技术在现存商业模式中的成功案例是Morgan Stanley。该银行开发其大数据处理能力,从而优化了规模和结果质量方面的组合分析。据预计,由于自动化模式识别和可理解性增强,这些過程将会导致金融风险管控的显著提升。
金融企业运用大数据和机器学习算法,对欠款客户进行人群聚类并根据聚类的结果识别骗贷、恶意欠款、恶意透支、盗刷盗用、对交易有疑问拒绝还款、经济状况恶化无力还贷、遗忘还贷等多种欠款类型;从而准确预测客户的还款概率和金额,从而进行催收策略评估,最大限度降低催收成本。
中国建设银行资产总行风险管理部/资产保全部副总经理谭兴民曾详尽分析大数据何以帮助银行提高征信水平和风险管控能力:
首先,一站式征信平台可以进行贷前客户甄别。目前,银行查询客户的情况既费时、费力,又增加银行费用,而利用企业的一站式征信平台,则可以最大限度地节省银行的人力、物力及时间,并确保数据有效、及时、准确。
其次,风险量化平台可以助力贷后风险管控。平台基于企业日常经营数据,结合平台数据模型,采用动态、实时的云端数据抓取技术,对企业的发展进行分析和评测,给出风险量化分数,并第一时间发现企业的生产经营异动,在风险触发前3到6个月预警,使银行等金融机构能够及时采取相应措施,防止和减少损失发生。
同时,利用“企业族谱”查询,对不良贷款进行监控。如一些企业通过关联交易转移利润、制造亏损的假象,为不偿还银行贷款寻找理由;或者通过关联交易制造虚假业绩,为继续获得银行贷款提供依据,这些假象通过关联交易查询,都可以很快发现蛛丝马迹,让企业造假暴露原形,可防止银行上当受骗。
大数据风控相对于传统风控来说,建模方式和原理其实是一样的,其核心是侧重在利用更多维的数据,更多互联网的足迹,更多传统金融没有触及到的数据。比如电商的网页浏览、客户在app的行为轨迹、甚至GPS的位置信息等,这些信息看似和一个客户是否可能违约没有直接关系,但实则通过大量的数据累积,能够产生出非常有效的识别客户的能力。
在运行逻辑上,大数据风控不强调较强的因果关系,看重统计学上的相关性是大数据风控区别于传统金融风控的典型特征。传统金融机构强调因果,讲究两个变量之间必须存在逻辑上能够讲通因果。
在数据维度这个层级,传统金融风控和大数据风控还有一个显著的区别在于传统金融数据和非传统金融数据的应用。传统的金融数据包括上文中提及的个人社会特征、收入、借贷情况等等。而互金公司的大数据风控,采纳了大量的非传统金融数据。
相对于传统金融机构,互金公司扩大了非传统数据获取的途径,对于新客户群体的风险定价,是一种风险数据的补充。当然,这些数据的金融属性有多强,仍然有待验证。
巨头优势明显,并不代表创业公司的路已被堵死。大公司不可能面面俱到,布局各种场景。在互联网巨头尚未涉及的领域,小步快跑,比巨头更早的抢下赛道,拿到数据,并且优化自己的数据应用能力,成为创业公司杀出重围的一条路径。