优秀的互联网金融 风控建模公司,是怎么玩大数据风控的

【数据阳光】原创:互联网金融中的大数据风控实践
我的图书馆
【数据阳光】原创:互联网金融中的大数据风控实践
信贷风险难以控制,成为整个互联网金融行业面临的共同难题。 在此文中,我们将从数据管理、信用评分、高可用性三个方面分享风控实战中遇到的问题和解决经验。1. 【风控:互联网金融的痛点】过去3年P2P行业放款规模增长率均保持在200%以上,2015年全国P2P网贷成交额达1.18万亿,快速增长背后意味着强劲的市场需求。但是,融360网贷评级报告中披露的数据显示,部分P2P平台坏账率高达20%以上,信用类贷款逾期率更是惊人,个别知名平台的个人信用贷坏账率近期已超30%。信贷风险难以控制,成为整个互联网金融行业面临的共同难题。&人人信用管理有限公司(简称“人人信”)是独立的第三方信用评级机构,于2014年开始,利用大数据技术在百万量级信贷客户样本、上万量级原始维度数据的基础上,搭建起用于线上审批的风险控制系统:知更鸟系统。目前,该系统已自动审批信贷申请30余万件,较人工审批预计坏账率降低50%。2. 【玩转大数据】风控领域引入大数据技术,人人信面临以下几方面挑战:1)大数据不单是数据大,如何综合运用结构化和非结构化的数据,将其匹配、关联、消歧后加以利用,数据仓库技术已不再适用。2)随着新增数据源不断加入,数据的维度不断扩展。如何将多维数据有效的加以运用,使得信用评分越来越准确?如何依据数据和场景快速的更新模型?传统金融领域的风控建模方法论已显得捉襟见肘。3)做为一家初创公司,在避免资源过度投入的同时又要保障系统的高可用性,应对线上业务流量指数级的增长。技术团队应按需的选择分布式技术,清晰的规划出架构演进路线。以下我们将从数据管理、信用评分、高可用性三个方面分享风控实战中遇到的问题和解决经验。2.1 数据管理不同于传统金融行业内使用的数据仓库技术,互联网金融面临的是来自多个数据源、不同质量、不同格式的异构数据,要想玩转这些数据,需要在全局范围内对数据的流转、加工、回溯、跟踪进行统一管控,并且明确不同类型数据在不同环节的功能定位。知更鸟系统中的数据在逻辑上分为以下几层:1)原始层:系统外部的原始数据,包括互联网上的公开网页、app或web页面上的用户行为、合作机构的结构化数据。该层数据是我们获取的对象。2)获取层:通过开发网络爬虫、商务合作等方式获得原始层数据,并且按照数据所表示的业务含义的不同而分开存储,采用的存储方案包括MongoDB和MySQL,大量的小文件直接存储于HDFS之上。该层的数据可用于按照来源做统计和按照业务含义做查询。3)汇聚层:用于对同一真实客户的来自不同数据源的数据做匹配、数据类型的归一化处理、强制性的数据消歧。其中的实名库包含了客户的敏感信息(如身份证号、联系方式、家庭住址等),需做加密处理后为客户分配全局统一编号。客户的其他属性存储于属性库。4)加工层:汇聚层的数据经过核验后,将其中高质量的数据迁移至加工层的核心库。核心库中的数据会根据不同的应用场景需求做不同策略下的标签化处理,处理之后供应用层访问。汇聚层和加工层均采用HBase Hive的方式,同时支持应用和统计。5)访问层:对上述3层所有数据的访问均需要经过访问层对外提供的接口,除了鉴权和访问接口外,该层还提供日常报表、数据质量实时监控、临时性的统计分析、数据流转日志查看等工具包。图1:数据流转架构2.2 信用评分风控不单是技术问题或管理问题,而是一项复杂的系统工程。其中在信用评分环节上,我们采用了机器学习模型 规则引擎的处理方式。图2:信用评分处理框架运用机器学习的算法,我们在一百万信贷客户数据的基础上得到训练模型。机器学习的优势在于可以发现业务专家无法总结到的规律,并且将其量化;缺点是必须基于历史的老旧数据,其理论基础是大数定理和独立同分布的假设,而实际业务环境可能会随时间发生变化。因此,仍需加入一部分由业务专家总结的规则来做辅助判断,一方面保障业务上的灵活性,应对突发情况和系统性风险,另一方面验证客户资料的真实性,避免欺诈风险。在机器学习算法的选择问题上,我们同时选择了几种不同的算法。传统金融行业在风控模型上绝大多数是使用线性模型以得到较好的可解释性(如Logistic Regression、GLM),为了尽可能保证模型的稳定性,还会分析各个变量的稳定性指标和变量间的相关系数,进而选取最具代表性的强变量,一般会将变量个数控制在20个之内。在以线上业务为主的互联网金融领域里,业务方可以在一定程度上牺牲模型的可解释性,而且面临的数据源多种多样,要想充分利用大数据带来的红利,将变量数量限制在20个之内是不现实的。另外,来自互联网的客户行为数据与来自人民银行个人征信报告数据相比,其中更多呈现的是非线性关系。因此,我们同时训练了线性模型和几种非线性模型,并且将多个模型集成起来得到综合评分结果。在上述思想的指导下,人人信算法团队自行开发出一套机器学习工具包,并依据金融领域数据的特点对一些机器学习算法做了改进。实验证明,这套利用大数据的集成模型比仅用央行征信报告的线性模型在准确率上有显著提升,较之前的人工审批在同样的核准率下预计可降低坏账率约50%。2.3 高可用性为了提高产品的开发效率和服务端系统的高可用性,人人信逐步引入一些开源技术,演进出一套适合自己的架构体系。目前涉及到的开源工具如图3所示。后台系统目前全部采用虚拟化技术,按照功能划分为如下几个区域:1)开发区:用于做产品开发、模型训练,该区域对CPU、内存的资源要求较高;2)测试区:用于产品上线前的代码自动化提交编译、功能测试、自动化测试、准生产环境平行发布;3)生产区:该区域分为几个层次,最上边的应用层为web和app产品提供服务器端服务,需要考虑做负载均衡和主备。然后是逻辑层,其中包含各类独立的服务模块,均按照统一的服务框架开发,服务框架本身提供了可配置性、性能的可监控性、分布式部署、统一鉴权、负载均衡等通用功能。采集层中部署了大量的网络爬虫服务,用于从互联网上采集数据,对CPU线程数目、网络带宽要求较高。4)数据区:如“数据管理”一节所述,该区域为其它各区提供统一的存储服务,对敏感数据做统一管理,将不同数据融合后对外提供统一的访问接口。图3:前后端协议栈3. 【大数据光环下的那些坑】毋庸置疑当前是个“互联网 ”时代,是个“大数据”时代,传统行业纷纷拥抱互联网,言必称大数据。然而,大数据光环下往往隐藏着一些暗坑,我们将其中主要的几点经验总结如下:1) &外部数据源质量评测:引入外部数据前我们会在几个不同维度上分别测试,包括:匹配率、稀疏性、有效性、真实性、一致性、稳定性、时效性、安全性、可替代性、性价比、压力测试。2) 数据预处理:传统金融领域建模人员往往缺乏非线性模型的驾驭能力;而机器学习领域算法工程师往往缺乏金融类数据预处理的经验,一些细节会对模型最终的线上性能带来很大影响,如:响应变量定义、时间窗选取、格式转换、缺失值处理、值域分析后不同的归一化处理、分箱选择、特征稳定性分析、时间戳匹配等。3) 架构演进:分布式技术多种多样,选择技术框架时需根据已有人员的技能积累做取舍,将社区支持程度和可运维性置于技术先进性之前。另外,在做灾备预案时需在不同层次上同时考虑,如:单个虚拟机、虚拟化整体方案、物理机、物理磁盘、数据库、存储、应用服务器、机房等。开发框架选取时应考虑到跨语言支持、多协议支持,为以后的架构演进留出足够空间。4. 【展望】&人人信目前已经积累起多项核心优势,如:百万量级信用数据、亿级实名用户金融属性数据、已落地应用的高准确度信用模型、广泛的外部数据源、强大的技术支持团队。未来人人信将更加专注于做独立的第三方征信机构和信用服务撮合平台,为各类场景服务机构提供获客服务和征信服务。&&(人人信技术团队欢迎各种形式的技术交流和商务洽谈,每周四晚技术沙龙对外开放。有意参加者可邮件联系 )作者:张杰博士,加入阳光前就职于华为中央研究院,从事机器学习、自然语言处理方向的算法研究,国内外发表学术论文十余篇,申请发明专利二十余项;现就职于人人信技术部,专注于大数据风控与个人征信方向。注:数据阳光原创,转载请注明出处。数
发表评论:
TA的最新馆藏最有看点的互联网金融门户
互联网金融做好大数据风控还差什么?
互联网金融做好大数据风控还差什么?
朱青山 | 来源:零壹财经
无论你接不接受,中国金融业的大数据时代正呼啸而来,并激起了巨大的想象空间。而大数据之于互联网金融行业,是蜜糖,更是挑战。
大数据风控在互金行业的应用现状
大数据对于金融行业最大的价值体现在风控上。
前几年,我们经常见到这种景象:一些刚开张没多久的互联网金融企业,对外宣传中总要加上一句自己是运用大数据技术进行风控的,仿佛不和"大数据"沾上点关系,都不好意思说自己是做互联网金融的了。
而现实总是骨感。以P2P网贷行业为例,据零壹财经《中国P2P网贷行业2016年5月月报》显示,截至日,P2P行业的问题平台总计2471家,占平台总数的比例高达54.1%,这其中除了主动退出和自融欺诈的平台外,有不少平台倒闭是因为风控不过关。
在国内,金融机构对大数据的应用还基本处于起步阶段,一是因为我国的征信体系不完善;二是国内的用户数据普遍存在获取困难和不精准问题,而传统金融机构缺乏对自身数据的分析处理能力。目前互联网金融在大数据风控上的尝试主要有两种方式,一是阿里、京东及其他大型线上平台通过自身积累的数据挖掘,自建信用评级发放金融产品;二是众多中小互联网金融公司通过贡献数据给第三方征信机构(如上海资信有限公司),再分享征信数据,这也是目前众多P2P平台采用大数据风控的主要方式。
而大部分互金平台自身所积累的数据,由于体量有限,最多只能称为随机性样本,不具代表性。此外,大部分平台由于缺乏对数据的挖掘建模和分析评估能力,无法得出科学有效的风险计量模型,形成风控手段。
大数据风控在互金行业的机遇与挑战
与国外金融行业相比,中国最大的弱势在于征信体系的不完善。目前央行征信系统覆盖了8亿人,但只有3亿左右的人是有信贷记录的,剩下的都是信用空白人群。但也正是因为这些数量庞大的白户,中国基于大数据风控的土壤相比国外更成熟,更具发展空间。
截至2015年年底,中国网民规模达到6.88亿,互联网的高效性和爆发性使我们能以较低的成本、较短的时间积累大量的用户数据,为分析建模提供足够的样本量。
在这过程中,互联网金融企业面临的挑战主要有两个,一是数据的不断积累与沉淀;二是高端数据人才的挖掘与培养。
为何要不断积累与沉淀数据?有的企业掌握了一定量的客户信息数据,就以为掌握了大数据,其实大数据风控的核心不在于数据本身,而在于通过足量的数据分析得到的风控模型。只有不断纳入足够的变量,得出的模型才具备充分代表性,不容易出现问题。因此,互金平台在目前的阶段中,要尽量抓取不同层面的数据,在这个基础上进行综合判断,减少出现误差的可能。
除了足量的数据积累外,把这些数据整合起来,形成核心有效价值最不可或缺的是人才,目前在国内金融行业中,擅长风控数据建模和数据研发的人才少之又少,挖掘和培养具备业务视角和技术能力的复合型人才成为互联网金融企业的崛起之光。相信随着行业的成熟,会有越来越多的高端数据人才加入这个行业,共同实现互联网金融的大数据掘金梦想。
用微信扫描可以分享至好友和朋友圈
按日期检索
2017年二月
6789101112
13141516171819
20212223242526
扫描关注官方微信账号
Copyrights. (C) 2013 by 清华大学五道口金融学院互联网金融实验室 版权所有 | 京ICP备号-2作者:伍聪 来源: 发布时间:
选择字号:小 中
互联网金融借力大数据玩转风险控制
近两年,金融行业内竞争在网络平台上全面展开。大数据时代,这种竞争说到底就是&数据为王&。为什么大数据在互联网金融领域扮演着如此重要的角色?业内人士认为,&互联网+金融&具有共享性,提供了&大数据&和更充分的信息,即通过更完善的价格信号,帮助协调不同经济部门非集中化决策。
信息占据核心地位
信息占金融市场核心地位。金融市场是进行资本配置和监管的一种制度安排,而资本配置及其监管从本质上来说是信息问题。因此,金融市场即进行信息的生产、传递、扩散和利用的市场。
在&互联网+金融&时代,信息的传递和扩散更加便捷,信息的生产成本更为低廉,信息的利用渠道和方式也愈发多元化,从而越来越容易实现信息共享。这种共享不仅包含着各类不同金融机构之间的信息共享,而且包含着金融机构与其他行业之间的信息共享、金融机构和监管机构及企业间的共享等。
信息共享并由此形成的&大数据&,降低了单个金融机构获得信息、甄别信息的成本,提高了信息利用的效率,使信息的生产和传播充分而顺畅,从而极大地降低了信息的不完备和不对称程度。&大数据&不仅使投资者可以获取各种投资品种的价格及影响这些价格的因素的信息,而且筹资者也能获取不同的融资方式的成本的信息,管理部门能够获取金融交易是否正常进行、各种规则是否得到遵守的信息,使金融体系的不同参与者都能作出各自的决策。
正确看待大数据征信
互联网金融的发展带火了P2P市场,也折射出风控体系建设的缺失。P2P跑路现象主要原因就是风控缺失,体现在&重担保、轻风控&和&重线上风控、轻线下调查&。
当前,多数P2P平台&重担保、轻风控&的思路是不正确的,担保是外界因素,风控是内在因素,一味强调用外在的因素而不解决自身的问题,不可能实现良好运转。互联网金融的风险管理不在规则之中,而在互联网和金融双重叠加的对象之中,其最基本的风险边界应是保证投资者的资产安全。守住了安全底线,这些平台才能健康成长。所以,P2P平台根本的安全底线还在于加强自身对象的风控。
另一方面,风控分为贷前、贷中、贷后风控。目前有些P2P平台从最开始的贷前风控就缺失,贷前风控最重要的是要实现&线下调查&,即通过线下实地走访和考察,对客户信息进行交叉验证和真实性验证,包括对借款人银行流水、征信报告、财产证明、工作证明等的审查,通过审查评估借款人还款能力。这些线下风控是不可或缺的,不能迷信或过分夸大&互联网+&的效率和普惠,线上的大数据和线下的实地考察必须结合。
基于大数据、个人征信的风控手段已有很多,大数据征信是实现P2P风控的创新路径。但是也需要正确看待,既不能要求大数据征信一步登天,一下子带来质的改变;也不能风声鹤唳,一有创新就以各种名义围追堵截,而需要给予更多理性的包容和试错的空间,在渐进创新中不断完善大数据征信体系。
目前存在的困难:
一是数据的虚拟性和&信息噪音&。虽然大数据及其分析提高了信息获取的数量和精度,但由于虚拟世界中信息大爆炸造成的&信息噪音&,导致交易者身份、交易真实性、信用评价的验证难度更大,反而可能在另一层面更强化信息不对称程度,也更容易存在信息垄断。
二是信用数据关联的不确定性。信用数据是多样化的,包括朋友信用、爱情信用、事业信用等。所谓忠孝不能两全,一个对朋友忠诚的人不一定对事业忠诚。对事业或工作忠诚,也不一定能说明他的金融信用好。大数据通过日常信用来判断金融信用会出现偏差。
三是&数据孤岛&不能实现数据共享。互联网平台具有强烈的规模效应,平台越大越容易产生数据,越容易使用数据。例如,阿里小贷主要通过卖家累计的海量交易信息及资金流水,也可通过大数据的分析在几秒内完成对商家的授信。但是,阿里小贷的数据,不可能提供给其他公司使用。因此,下一步应推动数据的整合和共享。
玩转大数据风控系统
传统的风控模式更多关注的是静态风险,对风险进行预判。而P2P市场让越来越多的传统金融企业转型互联网金融,大数据技术要对风险进行实时把握,要做到两点:大数据和云计算结合以及大数据的流处理模式。
大数据和云计算结合,实现了实时监控。云计算为大数据实时把握提供了硬件基础,可以实现秒级的数据采集、分析和挖掘。流处理模式实现了静态风险和动态风险的有效结合。一种人习惯先把信息存下来,然后一次性地处理掉,也叫批处理,如定期处理过期邮件;另一种人喜欢信息来一点处理一点,无用信息直接过滤掉,有用的存起来。后者就是流处理的基本范式,实现了实时监控。
怎样才能针对企业自身的发展和业务方向,玩转大数据风控系统,使其发挥到最大作用?我认为,要关注&大众数据&。要意识到互联网&长尾效应&的作用,互联网环境下&得大众者得天下&,关注大众数据,要了解大众心态,在归属感、成就感和参与感上下功夫。
还要将业务驱动转向数据驱动。理解数据的价值,通过数据处理创造商业价值,看似零散的数据背后寻找消费逻辑。此外,还应改造公司数据相关的IT部门,将其从&成本中心&转化为&利润中心&,充分认识大数据是核心竞争力,重视其挖掘和预测的能力。
当然,实时大数据风控还需要很多方面的探索,如何借助大数据建立全生命风控体系,形成贷前、贷中、贷后流程管理系统和决策系统。另外,还需加强信用数据相关性研究和量化模型的开发,金融信用(主要指借贷数据)可获得性比日常信用数据难,以金融信用为中心,通过日常信用,构建个人信用评估体系。
(作者系中国人民大学国家发展与战略研究院副院长、国际货币研究所研究员,本报记者贡晓丽采访整理)
《中国科学报》 ( 第7版
&打印& 发E-mail给:&
以下评论只代表网友个人观点,不代表科学网观点。&
目前已有0条评论

我要回帖

更多关于 互联网金融风控 的文章

 

随机推荐