如何在图像信噪比比极低的金融数据下应用机器学习

热门推荐:
  文|张权 罗嗣汉
  【摘要】
  在互联网金融、消费金融的蓬勃发展的当下,央行征信在数据时效性、全面性和层次性上的短板日益凸显。深度挖掘互联网大数据信息,开发大数据风控模型,更加精准的评估风险,已经逐渐成为了新一代信用风险模型体系建设的核心课题。
  本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构。采用T-L核模型替代RF模型中的传统决策树模型,将RF模型和T-L核模型结合,建立了ScoreNet模型体系。既大大提升了风险模型区分能力,也保证了模型结构的清晰和评分广泛的应用。
  【关键词】大数据风控 T-L模型 Random Forest ScoreNet
  1.选题背景及意义
  目前,央行的个人征信中心收录的自然人数达8.6亿多人,但其中仅有3亿多人有信贷记录,同时信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在严重短板。因此深度挖掘互联网大数据信息,开发大数据风控模型,弥补央行个人征信信息的不足,在互联网金融蓬勃发展的今天尤为重要。
  无论是线上还是线下的用户消费、社交数据,都有着不同于传统征信信息的独有特征:
  数据的稀疏性强(用户线上线下的行为散布广泛,极难全量收集和覆盖;用户行为偏好亦各有不同,在不同门类的行为差异很大,因此数据的稀疏性极为明显。一般情况下,用户行为信息的缺失率均超过50%);
  数据覆盖面广(信息覆盖面广泛,支付宝或微信都有超4亿活跃用户,用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面,单指标维度超过1000个);
  单变量风险区分能力弱(不同于传统风险模型采用的历史履约情况,个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量)。
  传统信用风险评估模型在业务逻辑架构下,利用数据驱动或专家经验开发模型模板,最终结合统计分析模型(逻辑回归、判别分析等)得到精准的计量结果。然而在新的数据画像和业务情景下,不仅丧失了原有的业务逻辑框架,更使得传统统计分析模型的应用受到严重限制。近年来,机器学习技术得到飞速的发展,在信息识别、推荐引擎等领域都取得了出色的应用效果,大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。但机器学习模型的模型逻辑极为复杂,很难把控模型的真实效果,也不易于直观展示和解释变量的风险特性。如何结合传统风险评估模型体系和机器学习技术,在保证业务逻辑和评分广泛应用的前提下,更加精准的评估风险已经成了新一代信用风险模型体系建设的核心课题。
  2.文献综述
  David Durand(1941)在信用评分领域首先使用判别分析,预测贷款者的还贷情况;20世纪50年代,Bill Fair和Earl Isaac发明了基于logistics回归模型的FICO信用评分体系,得益于清晰的业务逻辑和解释性,该评分体系逐渐成为了最为广泛应用的风险模型体系。然而无论是逻辑回归还是判别分析模型,都主要针对线性问题,无法对变量的非线性结构进行分析,同时对数据完整性和有效性要求较高,对数据噪声亦比较敏感,不适用于大数据背景下的模型开发和集成。
  McCulloch, W Walter Pitts(1943)[1]提出了神经网络模型,取得了十分广泛的应用,并首次描绘了机器学习理论的雏形;Ray Solomonoff(1956) [2]在An Inductive Inference Machine一文中,首度提出了机器学习的概念;Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964)[3]在统计学习领域的研究中提出了应用最为广泛的机器学习模型支持向量机(SVM);Breiman, Leo (1996)[4]、Michael Kearns(1988)[5]、Ho, Tin Kam (1995)[6]提出了集成学习算法:Bagging、Boosting、Random Forest,完美的解决了传统机器学习算法过度拟合的困境,使得算法的稳定性、泛化性和鲁棒性都有了显著的提高。近年来,机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域都取得了突破性的进展。推荐算法与风险模型的一致性,及GBDT[7]和Random Forest在推荐算法上优异表现,为我们研究金融大数据风险模型提供了新的方向和挑战。然而无论是单一机器学习算法,还是集成学习算法都有着复杂的模型结构,这种复杂的结构不仅使模型丧失了解释性,而且限制了专业模型分析人员对模型的把控能力,很难实现真正意义上的广泛的应用。
  3.研究的理论框架与模型建设
  本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构,建立了ScoreNet模型。既大大提升了风险模型区分能力,也保证了业务逻辑的清晰和评分广泛的应用。
  3.1.T-L核模型
  传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力,用逻辑回归等统计分析模型进行量化分析,得到精准的风险计量结果。然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性,同时可以揭示变量风险区分能力的非线性结构关系。因此我们将决策树模型和逻辑回归模型进行嫁接,建立T-L核模型。即在进行统计建模前添加一层决策树模型进行单变量分析,同时利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模,确定所有风险因子的风险权重。
  3.1.1.决策树模型
  在决策树各种算法中,CHAID[8](Chi-Squared Automatic Interaction Detection)既适用于二值型变量,也适用于连续型变量。针对每一次分叉,CHAID对二元响应和连续型目标变量分别采用了卡方和F检验。因此在本文中,选择CHAID算法作为决策树算法。
  CHAID算法以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,产生一系列二维表,然后分别计算所生成二维表的卡方统计量或F统计量。如果因变量(目标变量)是定类变量(例如PD模型),则采用卡方检验(Chi-Square-Test);如果因变量是定距变量(例如LGD,EAD模型),则采用F检验(F-Test)。如果几个备选变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类变量以及划分作为子节点。
  3.1.2.逻辑回归模型
  逻辑回归模型[9]是因变量服从二项分布,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型[10],具体数学表达式为:
  由此可以得到
  理论可以证明,如果样本的分布服从多元正态分布,那么该样本正好符合对数回归的假设。对数模型的误差项服从二项分布,因此,在拟合时采用最大似然估计法进行参数估计要比最小平方误差法估计。
  3.2. Random Forest模型
  3.2.1.Random Forest的基本原理
  随机森林是由美国科学家Leo Breiman将其在1996年提出的Bagging集成学习理论[4]与Ho在1998年提出的随机子空间方法[11]相结合,于2001年发表的一种机器学习算法[12]。随机森林是以决策树为基本分类器的一个集成学习模型,它包含多个由Bagging集成学习技术训练得到的决策树,当输入待分类的样本时,最终的分类结果由单个决策树的输出结果投票决定,如下图所示。随机森林克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。此外,随机森林是由数据驱动的一种非参数分类方法,只需通过对给定样本的学习训练分类规则,同时亦不需要分类的先验知识。
  随机森林是以K个决策树为基本分类器
  ,进行集成学习后得到的一个组合分类器。当输入待分类样本时,随机森林输出的分类结果由每个决策树的分类结果简单投票决定。这里的
  是一个随机变量序列,它是由随机森林的两大随机化思想决定的:
  (1)Bagging思想:从原样本集X中有放回地随机抽取K个与原样本集同样大小的训练样本集(每次约有37%的样本未被抽中),每个训练样本集构造一个对应的决策树。
  (2)特征子空间思想:在对决策树每一个节点进行分裂时,从全部属性中等概率随机抽取一个属性子集,再从这个子集中选择一个最优属性来分裂节点。
  由于构建每个决策树时,随机抽取训练样本集和属性子集的过程都是独立的,且总体都是一样的,因此
  是一个独立同分布的随机变量序列。
  训练随机森林的过程就是训练各个决策树的过由于各个决策树的训练是相互独立的,因此随机森林的训练可以通过并行处理来实现,这将大大提高生成模型的效率。随机森林中第
  训练过程如下图所示。
  将以同样的方式训练得到K个决策树组合起来,就可以得到一个随机森林。当输入待分类的样本时,随机森林输出的分类结果由每个决策树的输出结果进行简单投票(即取众数)决定。
  3.2.2.Random Forest模型的缺陷及改进方向
  不难证明随机森林的泛化性误差的上界[12]为:
  3.3. ScoreNet模型
  本文引入3.1中建立的T-L核模型替代3.2中RF模型中的传统决策树模型,将RF模型和T-L核模型结合,建立了ScoreNet模型体系。
  ScoreNet模型以传统模型为基础搭建,保留传统模型的业务解释性和稳定性。
  ScoreNet模型以随机森林模型为基本架构搭建了随机模型,客服了传统模型对数据噪声亦比较敏感的缺陷,使模型的泛化性与稳定性有了进一步的提高。
  ScoreNet模型客服了传统模型一般只能容纳10-15个变量的缺陷,模型可以涵盖100+个变量。可以从源头杜绝用户刷分现象,提升模型的公信力。
  ScoreNet模型的在应用层面的高度稳定性与业务解释性,使其有着比纯粹机器学习模型更广泛的应用空间。
  4.模型开发与结果分析
  本文通过互联网爬虫技术及第三方合作机构通过跨商家、浏览器、设备、微信进行实时互联网数据采集分析,包括但不限于:商品消费行为采集与挖掘、资讯、社区与视频阅览行为采集与挖掘、O2O消费行为采集与挖掘、高单价商品消费行为采集与挖掘、金融服务行为采集与挖掘等。
  通过各渠道数据采集与挖掘形成用户全方位的画像数据(如:人口统计学标签、用户通用标签、资产价值标签、消费行为喜好、阅读喜好标签、金融服务标签、社交圈标签等),进而了解用户全方位属性信息。
  本文采用大数据风险模型ScoreNet技术,针对身份信息核查、稳定性信息、金融申请信息、资产评估信息、商品消费信息、媒体阅览信息等6大维度对用户违约风险进行评估。
  4.1数据分析
  4.1.1.数据采集
  本文采集了:身份信息核查、稳定性信息、金融申请信息、重要资产信息、商品消费信息、媒体阅览信息等6大维度近1000个子项的互联网数据。
  从模型表现可看出模型在不同样本上皆具备一定程度的区分能力,表示其稳定性高,未来应用时能适应不同的人群。
  4.3模型结果对比分析
  传统模型与ScoreNet模型对比分析结果:
  传统模型与机器学习模型(Random Forest)对比分析结果:
  模型对比分析结果显示,ScoreNet模型较传统模型(Logistics)在区分能力上有了较大幅度的提高,可提升KS/AR值约0.05,同时延续了传统模型(Logistics)的稳定性和解释性;ScoreNet模型较纯粹机器学习模型(Random Forest)在稳定性、泛化性上有着绝对的优势,区分能力也更加优越。
  5.应用分析及方案建议
  5.1.征信多元化与风险量化
  传统金融机构的征信信息来源主要是央行征信,但央行征信仅有3亿多人有信贷记录,信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活,互联网行为数据是央行征信的有效补充,可以不断强化征信数据的时效性、全面性和层次性,从无形中记录用户的行为,去伪存真,还原真实的客户 。从而大大提升信息的利用率和有效性。
  同时,大数据风险模型的应用,可以不断提高金融机构风险识别、计量能力。从而不断完善征信信息体系架构,为精细化风险定价提供必要的基础和土壤。
  5.2.授信审批决策/自动化审批
  传统上,金融机构的授信审批决策主要依赖于信贷人员的主观经验和判断,缺乏统一的标准,不利于金融机构整体风险政策的执行。随着大数据模型开发技术与内部评级体系建设的深度融合,金融机构可更加广泛和全面地将评分/评级结果应用于授信审批,为贷款决策提供参考和支持。
  大数据风险模型优秀的风险排序及区分能力能够大力推进自动化审批的进程及线上产品的改革与创新。对模型评分高于一定级别且满足其它授信决策条件的,授信申请可以自动通过,不需要再经人工审核,对于评分低于一定级别的,模型自动拒绝其申请;只有模型评分介于以上两者之间的客户,才由人工介入进行申请审核。
  5.3风险监控与预警
  风险监控与预警是指借助各类信息来源或渠道,通过对数据与信息进行整合与分析,运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆,准确识别风险的类别、程度、原因及其发展变化趋势,并按规定的权限和程序对问题授信采取针对性处理措施,以及时防范、控制和化解授信风险的一系列管理过程。
  大数据风险模型较传统内部评级体系更为精细和灵敏,可以快速识别贷后风险,为不同的用户设定不同的监控频率、自动筛选高风险客户,制定有针对性的贷后管理措施、贷后管理工作等。
  6.参考文献
  [1]. McCulloch, W Walter Pitts (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics 5 (4): 115C133.
  [2]. Ray Solomonoff, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56-62, 1957.
  [3]. Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964). Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control 25: 821C837.
  [4]. (1996). Bagging predictors. 24 (2): 123C140.
  [5]. Michael Kearns(1988). , Unpublished manu (Machine Learning class project, December 1988)
  [6]. Ho, Tin Kam (1995). . Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14C16 August 1995. pp. 278C282.
  [7]. Brieman, L(1997). .
  [8]. Belson, William A.; Matching and prediction on the principle of biological classification, Applied Statistics, Vol. 8 (1959), pp. 65C75.
  [9]. Huston, James A. (1966). The Sinews of War: Army Logistics, , (755 pages).
  [10]. ; (1972). Generalized Linear Models. . Series A (General) (Blackwell Publishing) 135 (3): 370C384.
  [11]. Ho T. .IEEE Transactions on Pattern Analysis and Machine Intelligence,2-844.
  [12]. Trevor H Robert T Jerome Friedman (2008). The Elements of Statistical Learning. California.
  本文由作者投稿至36大数据,并经由36大数据编辑发布,任何不标明作者、来源36大数据及本文链接 /archives/42843的均属侵权。
  文章来源36大数据,微信公众号(dashuju36),36大数据是一个专注大数据创业、大数据技术与分析、大数据商业与应用的网站。分享大数据的干货教程和大数据应用案例,提供大数据分析工具和资料下载,解决大数据产业链上的创业、技术、分析、商业、应用等问题。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
36大数据是一个专注大数据、大数据应用案例、数据分析、数据...
知名IT评论人,曾就职于多家知名IT企业,现是科幻星系创建人
未来在这里发声。
新媒体的实践者、研究者和批判者。
立足终端领域,静观科技变化。深入思考,简单陈述。
智能硬件领域第一自媒体。当前位置:
看大数据和机器学习如何助力公司腾飞
36大数据  
核心提示:
企业可以在机器学习的帮助下充分利用大数据。这里提到的机器学习不是科幻电影里面与人类为敌的机器人,现代机器学习致力于挖掘数据中的价值。
无可否认,我们已经步入大数据时代,轻敲键盘就能获得海量数据。随着物联网(IoT)的发展,数据量还会进一步扩增。今后十年里,预计有 500-700 亿联网设备涌入市场,忽视如此大规模的数据并非明智之选。
企业可以在机器学习的帮助下充分利用大数据。这里提到的机器学习不是科幻电影里面与人类为敌的机器人,现代机器学习致力于挖掘数据中的价值。
IBM 计划向开发者开放 Watson(IBM 超级计算机)海量 API 中的部分接口,但是 Watson 并不是唯一的机器学习(ML)系统,还包括 Google Deepmind(Google Brain 项目的一部分)、斯坦福的 Deepdive(与 DARPA,即美国国防先进研究项目局合作)、微软的 Azure 平台和 MIT 的 ConceptNet5.
下面我们来看看科技创新者如何高效利用大数据和机器学习。
提高工作效率
企业要想提供切实可行的解决方案,效率至关重要。这体现在产品和服务的方方面面,从设备的原型阶段到市场推广阶段,效率始终是根本。
机器学习能够迅速处理从传感器、室内系统和外部合作伙伴获取的数据,从数据中得出新的结论,最大化利用各种综合信息,从而精简当前工作流程。这一提高效率的方式对企业和个人都适用。
举个例子:Attitude Sports 老板大卫 . 哈斯(David Haase)报名参加了环美自行车竞赛(Race Across America),在 3000 英里的比赛中他排名第二,能取得这样的成绩归功了大数据和机器学习。他的团队实时监测他的生物数据,并与其他的数据相结合。在九天的时间里,团队追踪风速等数据,判断休息和补充能量的最佳时间点。正是这一系列的数据分析使得大卫 . 哈斯足足领先了第三名一天的时间。
再比如现在在 NBA 战无不胜的勇士队,训练师早就使用可穿戴装置监测球员的疲劳度,监测球员的心率、下肢承重力等数据,利用数据判断群员的健康状况,合理安排轮休,这也是为什么勇士队能保持健康。
大数据效率提高就意味着成本降低和时间节省。波音分析人员正在探寻数据关联性,缩短飞行时间,减少燃油量。
通往创新的道路
诚然,持续不断的创新不容易,而且在创新的时候,并不能确定这个新点子的实用价值。机器学习的优势在于能从各个方面评估这项创新,比如确定现有产品的缺陷、前瞻性分析或者发现之前不为他人注意模式。
DARPA(美国国防先进研究项目局)的使命在于创新,DARPA 在很多不为大众所知的高度机密项目上运用了大数据和机器学习。身为互联网的前身(ARPANET),DARPA 使用人工智能系统检测软件漏洞。在商业上,以环保著称的波音 787 机型极度依赖数据反应实时状况,创新性地解决环保问题。
新的商业模式是数据应用必然的副产品。你的公司如何向顾客传播价值?你如何收集和利用数据?
大数据能够挖掘之前没有意识到模式和联结,并实时体现其价值:一线员工能够迅速处理站在他面前用户的问题,用户也能从服务中得到价值,提供反馈。这一观点必将改变业务经营模式。
以 Local Motors 为例,其使用 3D 自动生产制造技术,能够在 40 个小时以内打印出一辆可操控的汽车。只要有了正确的数据,一个小型、高效的生产工厂就能满足客户的定制需求&&这是一种全新的生产和销售汽车的模式。
大数据分析和机器学习向已有的高效方法论和创新论发起了强有力的挑战。它们甚至可以颠覆传统行业运营方式,大数据和机器学习必将驱动公司业务的发展。
关注官方微信:或微信号: 我们将定期推送IDC产业最新资讯
2016 IDC十大事件评选进行中 选择您心中的大事件赢取IDCC大会嘉宾门票和纯银限量版纪念币
Copyright 2001 - 2013 Chinaitlab Group All Rights Reserved. 京公网安备14号

我要回帖

更多关于 信噪比80db音响怎样 的文章

 

随机推荐