在金融风控领域,联邦机器学习具有什么优势

原标题:当信贷风控遇见机器学習模型还是规则?

严谨的金融从业者答案必是风控。

金融的核心是风控风控的核心,是模型

风控是金融业务的核心组成部分,而信贷风控又是整个风控领域体量最大、挑战最大的类型传统的信贷风控主要靠资深从业人员依靠自身的经验设置的专家规则。

市场越乱浑水摸鱼者越多,风控行业就像陷入了恶性循环

风控之乱,已让互联网金融行业感觉到了切肤之痛

正在阵痛期的互金行业,是否意識到这才是恶疾根源

随着统计学、大数据、机器学习的发展,现代信用风控越来越偏向量化模型的手段来得以解决风控问题

如何搭建金融信贷风控中的机器学习模型

课程使用真实场景下的信贷违约数据,从基础的数据分析开始一步步构建依赖逻辑回归、XGBoost、神经网络模型等方法的风控模型。

同时课程也会展示信贷风控领域中经常面临的挑战和相应的解决方法。从第三节课开始每节课都会在真实数据嘚基础上完成章节的模块设计

第一章:数据分析与建模的基础知识

3、数据分析的常用模型

4、数据分析的常用工具

第二章:互联网金融和信贷风控的概述

2、常见的个人信贷产品

3、信贷风控中的主要参数

第三章:评分卡模型(A卡):数据的预处理与特征构建

第四章:评分卡模型(A卡):数据的预处理与特征构建(续)

2、特征信息值与数值编码

1、LR模型的基本概念

2、基于LR模型的评分卡构建工作

第六章:模型的验证、监控与调优

4、其他常见的监控指标

第七章:机器学习模型在信贷风控中的应用一:XGBoost模型

3、XGBoost模型中的特征重要性

第八章:机器学习模型在信贷风控中的应用二:DNN模型

1、神经网络模型的基本知识

第九章:组合模型在评分卡中的应用

1、单一模型与组合模型的基本概念

3、组合模型與单一模型的对比

第十章:评分卡模型(B卡)的开发

1、行为评分卡模型:基本概念和应用场景

2、行为评分卡中的数据预处理和特征衍生

第┿一章:评分卡模型中的前沿问题一:标签缺失的处理

2、标签缺失的处理方法

3、标签缺失场景下的模型构建

第十二章:评分卡模型中的前沿问题二:非平衡样本的处理

安迪生:硕士毕业于世界一流名校的统计学专业具有外资银行总部6年风控量化模型开发经验,现任国内知洺互联网金融公司风控部高级数据分析师对于信贷风控领域的模型开发、部署与使用有丰富的经历,对机器学习模型、深度学习模型在風控业的应用有较深入的研究

录播学习+VIP会员群

课程原价799,现价只需399!

限时促销倒计时6天!

点“阅读原文”了解更多

(本文数据为虚构仅供实验)

夲文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景与常规的结构化数据不同,图算法需要把數据整理成首尾相连的关系图谱图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件包括K-Core、最大联通孓图、标签传播聚类等。
下图是已知的一份人物通联关系图每两个人之间的连线表示两人有一定关系,可以是同事关系或者亲人关系等已知“Enoch”是信用用户,”Evan”是欺诈用户计算出其它人的信用指数。通过图算法可以算出图中每个人是欺诈用户的概率,这个数据可鉯方便相关机构做风控

数据源:本文数据为自己生成,用于实验

数值越大,两人的关系越紧密

最大联通子图的功能很好理解前面已經介绍了,图算法的输入数据是关系图谱结构的最大联通子图可以找到有通联关系的最大集合,在团伙发现的场景中可以排除掉一些与風控场景无关的人本次实验通过“最大联通子图”组件将数据中的群体分为两部分,并赋予group_id通过“SQL脚本”组件和“JOIN”组件去除下图中嘚无关联人员。

通过“单源最短路径”组件探查出每个人的一度人脉、二度人脉关系等distance讲的是“Enoch”通过几个人可以联络到目标人。

“标簽传播分类”算法为半监督的分类算法原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中每个节点的標签按相似度传播给相邻节点。
调用“标签传播分类”组件除了要有所有人员的通联图数据以外还要有人员打标数据。这里通过“已知數据-读odps”组件导入打标数据(weight表示目标是欺诈用户的概率):

通过SQL对结果进行筛选最终结果展现的是每个人涉嫌欺诈的概率,数值越大表示昰欺诈用户的概率越大

核心提示国家高度重视“风险防控”大数据技术贯穿金融风险管理全流程。


  为调查了解金融领域大数据风控现状促进大数据技术在金融和支付清算领域的创新和咹全应用,中国支付清算协会对银行、支付机构、大数据服务公司等机构的大数据的业务场景、信息安全等情况进行深入了解并对当前夶数据风控在金融领域的应用现状、解决方案总结如下:

  国家高度重视“风险防控”,大数据技术贯穿金融风险管理全流程

  风险管理是金融的本质之一而风控是所有金融业务的核心。近年来伴随金融科技(FinTech)浪潮,国家密集出台相关文件要求加大互联网交易風险防控力度,鼓励通过大数据分析、用户行为建模等手段建立和完善可疑交易监测模型2015年《网上银行系统信息安全通用规范(修订版)》提出,要“建立完善的网上银行异常交易监控体系识别并及时处理异常交易”。2016年《中国人民银行关于进一步加强银行卡风险管悝的通知》(银发〔2016〕170号),要求“各商业银行、支付机构应该利用大数据分析、用户行为建模等手段建立风控模型做到及时预警异常茭易”。2017年《中国人民银行办公厅关于强化银行卡磁条交易安全管理的通知》(银办发〔2017〕120号),提出建立基于大数据技术的风险防控機制全国性商业银行于2017年8月底前,其他商业银行于2017年12月底前完成基于大数据技术的银行卡风险防控系统建设。

  可见通过大数据技术建立并不断优化风险评估模型,提高各业务场景欺诈拦截成功率已势在必行随着大数据的普及应用,一些新兴的大数据公司、征信公司、互联网金融公司依托大数据创新风控手段大数据风控的概念应运而生。

  金融大数据的主要来源及大数据风控的基本流程

  茬互联网高速发展的今天数据资源异常的丰富和庞大,主要有以下几类。一是客户授权数据包括手机设备信息、网络节点信息、浏览数據埋点、LBS位置信息、通讯录、通话记录数据等。二是人行报告数据包含大量自然属性、贷款办理、还款能力、逾期行为、用卡行为、担保、抵押等大量信息。三是外部征信数据涵盖各类黑灰名单、金融信息、网络借贷行为数据、各类收入数据、个人资产信息、消费能力、移动通信详细信息、社交信息等。四是机构日常积累的其他合规数据源基于多维数据源,为银行、支付机构等金融业机构提供公允、標准化、高质量的信用信息提高整个行业资金流动的效率。

  大数据风控流程的建立主要分为四个阶段:数据收集、数据建模、构建愙户评分体系及监测分析收集到海量数据后,需经过大量的清洗、探索与抽样运用灵活策略来交叉匹配并综合分析,构建出客户评分體系基于先进的风控分析模型,以及准确、稳定、实时更新的丰富数据源利用精密算法和灵活策略进行综合高效的监测分析,保障业務平台健康稳定运行

  大数据风控在金融领域的具体应用

  (一)应用场景及典型风险

  大数据风控即大数据风险控制,是指利鼡数据分析和模型进行风险评估为金融行业和个人用户提供全方位的安全保障。常见的业务场景有信贷、支付、登录、注册、精准营销等关于大数据风控的应用,主要从如下场景展开分析:

  信贷场景中为信贷企业预防贷前、贷后等场景的欺诈风险对借款人的历史借贷、消费特征等行为进行分析,前置性判断用户的还款能力(经济实力)和还款意愿(道德风险)为信贷决策提供可参考依据。构建整体风控解决方案提供全方位的大数据分析,协助互联网信贷企业尤其是小微金融企业客户,更广泛利用大数据提升风控和获益能力减少潜在的资金和信用损失。

  支付场景中通过高质量的金融黑名单等海量合规数据为精准识别风险交易提供风控依据。基于大量風险数据和强大的机器学习技术建立精准风控模型。通过事前预测事中监测预警,事后关联分析全程实时监测业务潜在威胁,精准識别资金风险、套现、盗卡、盗号、钓鱼支付等行为保护用户财产安全。同时通过对用户的个人信息(姓名、身份证号、手机号、银行卡號等)进行真实性校验帮助第三方支付机构降低审核个人信息时的人力和时间成本,有效控制恶意欺诈风险

  登录及注册场景中结合目前领先的风控模型,对登录及注册环节可能存在的账户安全隐患进行实时监测并预警有效防范撞库攻击、暴力破解、垃圾注册等账号咹全风险。

  精准营销的实现是基于大数据模型从而找到精准用户同时识别虚假交易、恶意下单、库存绑架等欺诈行为,保护平台交噫安全

  (二)创新型应用技术

  风控工具的开发及使用可促进多维度第三方数据充分利用从而提升风控效果。

  设备指纹技术基于国际领先的设备识别技术,通过获取上网设备的软件、硬件、行为等多层次指纹信息为每一个操作设备生成全球唯一的设备ID,精准分析设备用户的操作轨迹对设备进行标识、评估欺诈风险。设备指纹技术普遍用于反欺诈的事前、事中、事后各个环节

  身份认證技术。身份认证解决方案中融合了数字签名、人脸识别、时空码及设备指纹等多项核心安全技术从而确保整个身份认证过程的安全性與便捷性。

  兼顾移动端与PC端用户无需携带除手机外的任何额外认证设备(如U盾)即可完成身份认证;无需获取用户数据(如姓名、身份证等),无数据泄露风险同时保护用户隐私信息。另外无需使用额外认证设备(如USB Key),同时减少因使用USB Key而带来的运维管理大大降低银行的业务运营成本。

  身份认证解决了平台用户账号登录、管理授权、转账汇款、支付交易、资金提现等关键环节的二次身份确認问题

  流式大数据计算技术。流式大数据计算技术是基于时间窗口移动的动态数据快速处理技术采用高速的流处理技术及分布式緩存技术,可实现超低延时、超高并发、高可靠、高扩展、高可运维支持复杂事件的计算,组件均为松耦合设计能够跟其他平台进行無缝对接。目前集群吞吐能力少量节点即可达百万笔每秒平均延时1毫秒。风控系统对数据的分析处理能力在时效性方面达到毫秒级,財算正真的事中风控从而实现风险实时识别和拦截。

  智能决策引擎智能决策引擎主要作用是实时对交易进行风险判断。它是在传統的规则引擎的基础上结合目前主流的模型引擎,使规则引擎与模拟引擎配合使用将机器学习嵌入到整个反欺诈过程中。提供相关业務策略的全生命周期的统一管理包括简单规则、决策表、决策树和规则流等组件的编辑、部署、运行、监控等功能,为用户提供高效的決策管理服务总的来说,模型更多的是辅助规则并能在某些风险场景下提高规则的准确率。但基于机器学习的智能决策引擎将越来樾受到重视,并在风险防控中发挥更大的作用

  (三)大数据风控解决方案

  随着互联网金融兴起,风控从业者也如雨后春笋般应運而生由于各机构所面对的业务场景、数据来源、用户群体不尽相同,因此目前行业还没有统一的标准来提出一套完整的解决方案同時,欺诈因素的不确定性也使得大数据风控不得不因地制宜,量身定制最合适的解决方案综合目前风控行业的实际情况,简要介绍以丅几种:

  终端环境及应用的安全检测应用设备指纹技术,给予终端唯一设备ID对设备进行root/越狱检测、修改器及模拟器检测;同时对終端应用进行安全检测,帮助主动挖掘未知漏洞、发现恶意代码和后门程序上述检测过程在手机终端的移动应用开始启动时自动运行,聯合云端病毒库进行扫描检测并在检测完成后向该应用报告扫描结果,扫描结果以风险评级的方式输出

  应用行业先进技术构建反欺诈模型。在海量数据的基础上采用分布式并行计算、存储管理和实时检索,并运用关联、分析和建模解决实际业务问题。纵深多重賬户防护体系有效识别欺诈分子,有效防范拖库撞库、账号盗用等账号风险从而保障账户安全;多维数据深度学习,分析设备行为异瑺高效预警垃圾注册、恶意刷单等欺诈风险;多渠道数据交叉验证,实时信用监控及时发现多头借贷、恶意欠款等业务风险。

  基於生物识别的身份认证与交易验证生物特征具有唯一性,可以测量或可自动识别人类的生理特征和行为特征来进行个人身份认证的鉴定可用于生物识别的生物特征有手形、指纹、脸形、虹膜、视网膜、脉搏、耳廓等,行为特征有签字、声音、按键力度等基于这些特征,发展了指纹识别、声纹识别、面部识别、发音识别、虹膜识别、签名识别等多种生物识别技术生物识别技术具有传统的身份认证手段無法比拟的优点。采用生物识别技术可不必再记忆和设置密码,使用更加安全方便生物识别技术可以在1秒内迅速识别身份信息,大大高于人类肉眼的识别准确率与速度;通过交叉验证可以极大的提升用户远程认证的便捷性与流程效率,生物识别技术已经实现了精准身份验证包括1:1人脸验证、身份证真伪验证、活体验证等,这就可使其远程、便捷对用户身份进行验证进而减少恶意欺诈、降低审核成本、提高金融安全度,构建多因子风险防护保障金融科技安全。

  智能决策流实现秒级审批近年来,随着人工智能崛起机器学习技術也得以较快发展,智能决策引擎就是基于机器学习的基础上实现的可以利用海量历史数据训练模型,基于客观的数据进行风险把控來提升基于专家规则的风控系统的准确率和覆盖率。同时结合大数据技术把风控系统提升到了实时反欺诈,通过低延时、高吞吐量的数據处理能力为实时风控系统尤其是模型的训练提供了强有力的支持。

  金融是现代经济的核心它对经济的运行与社会制度的完善具囿重要的促进作用。防范风险、居安思危的意识人类自古就有随着互联网金融行业的发展,欺诈风险问题也越来越突出更多的人意识箌大数据风控在金融领域的重要性,并通过大数据技术来解决风控难题但在当前阶段,许多大数据风控系统普遍存在数据的真实性不高、有效性仍需通过市场来论证、数据收集和使用过程中面临着合法性问题等因此,我国的大数据风控依然还有很长一段路要走

  文|趙计博业务协调三部

我要回帖

 

随机推荐