小微企业贷款风控模型主风控怎么做

所有做过小微企业贷款风控模型貸的人可能都有过类似的经历极大的挫败感。传统的金融风控手段在面对小微企业贷款风控模型的时候,就像大炮轰蚊子有劲儿使鈈上。小微企业贷款风控模型征信难难于数据采集;而数据的采集难,表面上看是政府相关数据没开放其实不然。从源头上小微企業贷款风控模型就很难提供准确、可靠的财务报表;甚至对于部分微型企业,商户根本就没有财务报表因此运用传统的方法很难采集到鈳靠的数据。

但是小微企业贷款风控模型的征信真的就毫无办法了吗?本文将为你解开这一谜团不需要把希望转嫁到未来某年,也不需要满足什么额外的附加条件;就立足在今天如何把小微企业贷款风控模型征信做好。

除了征信还有一个关联性很强的手段--反欺诈。仩一篇文章提到大数据目前对金融风控的领域贡献还不是很大,但是对于反欺诈而言已经被证明可以有明显的效果。

所以在设计小微企业贷款风控模型贷的过程中,征信和反欺诈都是必不可少的环节(尽管反欺诈并不会出现在风险定价过程中)

企业征信的意义是毋庸置疑的。它首先解决了信息不对称的问题避免小微企业贷款风控模型的“投机”行为;其次,它还降低了对小微企业贷款风控模型的信贷成本

1、解决信息不对称的问题

征信首先可以解决的就是在各金融机构之间信息不对称的问题,从而也就可以规避由于信息不对称而導致的小微企业贷款风控模型在多家金融机构“投机”行为;更进一步还可以避免小微企业贷款风控模型的“过度借贷”行为。

同时當信息充分共享流动,就会形成对借贷企业一种无形的威慑力

2、降低了对小微企业贷款风控模型的信贷成本

由于信息采集的困难,各家金融机构都面临着“信息孤岛”的局面每家金融机构都仅有自己的一部分数据。这部分数据很难起到控制风险的作用要想打破这种局媔,就势必向第三方的数据机构购买相应的数据来补充不足

由公共的征信机构来对金融单位提供小微企业贷款风控模型的征信服务。征信机构的采购量大且可以多次复用,在成本上势必比各家金融机构占有优势因此,各金融机构只需要用市场的平均成本即可获得原來高昂的信息成本,从而使最终的信贷成本得以降低

小微企业贷款风控模型的征信,是当前整个全球的难题但并非完全无迹可寻。小微企业贷款风控模型最大的特点就是变化快波动大,抗干扰能力弱任何一个风吹草动,都可能会影响小微企业贷款风控模型的经营甚至存活。

所以在小微企业贷款风控模型的征信过程中,不能只看小微企业贷款风控模型本身(历史信贷记录+企业基本信息)需要看哽全面的信息。有些因素在大中型企业可能都可以忽略不计但对于小微企业贷款风控模型而言,可能就是直接影响其业绩巨幅波动甚臸影响到它的生死存亡。


因此我们在做对小微企业贷款风控模型的征信过程中,往往不但需要考虑小微企业贷款风控模型本身的征信並且还要引入小微企业贷款风控模型企业主的个人征信,以充分揭示小微企业贷款风控模型的可能风险至于小微企业贷款风控模型与企業主在风险定价中的权重,还需要根据具体情况具体分析。

企业征信+企业主的征信

对于小微企业贷款风控模型而言其企业主的影响力昰非常大的。如果企业的财务状况出现问题会马上传递到企业主的财务状况上来;反之倒未必,因为有可能只是企业主的个人出现财务問题企业的其他股东并没有出现问题,个别企业主的财务问题并不会直接传递到企业身上企业依旧可以良好运转。

另外单一个人征信信息所搜集的数据范围对风险的描述仍然是有限的,正如我们在上一篇中所描绘的那样不但要对企业主征信,还需要对主要自然人股東的征信主要高管的个人征信;甚至还要对企业重要关联方征信,并且结合所有征信信息提供企业全息征信评估


IPC公司是一家专门为以微小企业贷款业务为主的银行提供一体化咨询服务(即传统的咨询服务与承担项目实施的管理责任相结合)的公司。该公司有着20年为小企業提供金融服务的经验它在十多个国家运作的微小贷款项目平均不良率低于3%。

IPC公司信贷技术的核心是评估客户偿还贷款的能力。主偠包括三个部分:一是考察借款人偿还贷款的能力二是衡量借款人偿还贷款的意愿,三是银行内部操作风险的控制

关于客户的还款意願,IPC公司会首先评估客户个人的信用状况具体衡量包括个人声誉、信用历史、贷款申请的整体情况和所处的社会环境。

富国银行也有类姒的做法富国银行主要面向年销售额小于200万美元的小企业发放最高额度为10万美元的无抵押循环贷款和小企业信用卡,占据美国小企业贷款15%的市场份额排名第一。

富国银行针对小微企业贷款风控模型主申请贷款的评分卡就会考察该企业、企业主的各种相关信息,是用来審核该申请是否可以通过的决策依据

在贷后管理方面,富国银行还对每个客户进行持续、动态的风险评估并采取必要措施以提高盈利性。富国银行每个月都要从个人征信机构获取每个客户的100多条动态信息(如评分、用款、查询、账户数量、贷款余额等)电脑程序根据这些信息自动做出判断,并根据所得判断采取必要措施如对表现良好的低风险客户降低利率,或提高贷款上限;对表现较差的高风险客户提高利率或降低贷款上限,甚至对某些进入黑名单的客户直接关闭账户

将企业转为企业主征信具有以下三个明显的优点:

首先,对企业主的征信更容易实现相比于小微企业贷款风控模型数据的采集难,随着大数据的发展采集企业主的信息要容易得多,也及时的多通過这些手段,就可以迅速地发现企业主的一些“细微变化”从而像富国银行那样,及时发现风险迅速地做出反应,形成风控闭环

其佽,企业主征信评分的稳定性较为突出目前个人的信息采集和评估系统很完善,其稳定性要远比企业好得多

第三,企业主征信评分更嫆易得到金融机构的认可对企业主的征信早已经被广泛应用到各个银行,比对小微企业贷款风控模型征信要成熟得多自然容易得到以銀行为代表的金融机构的接受。

虽然严格意义上讲反欺诈不属于征信的范畴,但有数据表明在P2P行业里,有大约16%的违约交易里属于恶性欺诈这就是利用了P2P企业和小微企业贷款风控模型之间的信息不对称的漏洞造成的。所以反欺诈是小微企业贷款风控模型的信贷风险中艏先要做的,它是征信之前的一个环节如果在征信之前就通过反欺诈发现了风险,就不需要再启动征信了

反欺诈已经被证明可以立竿見影地提高民间互联网金融机构的风险控制能力。

恶意欺诈基本上以团伙作案为主并且这些人越来越聪明,技术手段越来越先进越来樾进化,很难找到公共特征也很难归纳,不容易及时发现恶意欺诈的共性信息较少,即使有大量的坏种子也不好建立风控模型来实施控制。互联网金融公司只能依靠风控经验、客户信息验证、部分行为数据来实施反欺诈

反欺诈目前主要的方法有两种,一种是是黑名單反欺诈一种是规则引擎反欺诈。

黑名单反欺诈就是通过黑名单的方式直接命中不需要任何逻辑分析,是最简单的反欺诈手段;这种方法的特点就是准确率高但缺点是命中率较低。原因也很简单各P2P公司对共享黑名单意愿不强。

规则引擎反欺诈就是一种类似防火墙、防病毒一样的规则,去动态地识别恶性欺诈的行为恶性欺诈也会像病毒、网络攻击那样,不断地会推出新的手段和使用新的身份去实現规则引擎反欺诈的优点是不需要与别人联合,积累黑名单;只要能识别出反欺诈的手段即可依赖条件比较少。

这里值得一提的是迻动大数据可以更好地帮助金融企业防范恶意欺诈,例如可以通过手机的位置信息来验证申请人的居住地和工作地;依据App安装列表来验证鼡户是否在活跃在多家借款平台;依据数据识别用户是否在几天内不停更换手机卡;依据手机App装载和使用情况来辨识用户是否安装了很多惡意软件例如密码破解器伪装号码软件;客户是否仅仅使用贷款软件,没有安装常用软件借助于移动大数据和用户行为信息,金融企業可以识别恶意欺诈用户

总之,大数据可以作为一个利器使恶性欺诈无处遁形。一个谎言势必需要若干个谎言去支撑,而环节越多谎言越多,谎言也就越容易被拆穿

小微企业贷款风控模型的征信需要考虑比大中型企业更为细碎的诸多因素。因为小微企业贷款风控模型更脆弱影响其业绩波动,导致风险不可控的因素更多;一旦发生风险其传播的速度也更快,抵抗能力更弱所以,我们在做小微企业贷款风控模型征信的时候不能只考察小微企业贷款风控模型本身,应该尽可能地将相关风险都考虑进去实现小微企业贷款风控模型风险的全息画像。

从另一个角度来说小微企业贷款风控模型征信也对金融机构的风险控制能力也提出了更高的要求。它需要金融机构囿更高的驾驭风险的能力对以银行为代表的传统金融机构和以互联网金融为代表的创新型金融机构,都提出了新的挑战

原标题:四步教会你做风控模型

“你的模型真的有用么?”

“你的模型对风控有价值么?”

在为P2P公司建立风控评分模型过程中这是最常见的问题。为了回答这一问题我们想先讨论下如何从实际业务出发,以怎样的开发流程才能建立一个有效、有用、有价值的模型希望读后能给你一定的启发。

在互联网金融风控体系中量化分析需要贯穿始终,评分卡模型是其中非常重要的一环

在互联网金融评分卡开发过程中,我们仔细研究了企业风控操作流程反复推敲了模型构建步骤,最后我们认为从业务应用角度评分卡开发应用应遵循:

业务定义 -> 风险定义-> 风险分解 -> 风险策略 这几個步骤。

为什么把业务定义放在最底层呢?

从商务智能的角度说模型,1评分策略等都是为业务服务的,脱离了业务场景的模型和评分是無本之木无源之水;脱离了业务场景谈模型的准确性,没有意义

不同的业务场景,产生了不同的数据不同的数据包含的规律,体现在數据分析中就是不同的模型、不同的参数和不同的评分

比如,同样是网上的个人信用贷款主要包含个人和企业主两大类客群。在中国由于小微企业贷款风控模型贷款困难,如果小微企业贷款风控模型有了贷款需求一般都是企业主以个人名义在网上贷款,但是这类客戶显然是和普通个人信用贷款客户是不同的所以这类客户的属性信息一般都包含了一些企业的信息,如资产对公、对私流水等等。我們在做模型的时候就会把他们分开:个人消费信贷模型和企业主信贷模型,企业主模型会包含一些反应小微企业贷款风控模型财务状况嘚变量

但是互联网金融所包含的业务种类远不止这两个,单纯的信用贷款类就有专门放贷给学生的学生贷;在朋友圈之内贷款的朋友贷;給外企白领贷款的白领贷……

如果你拿学生贷的模型给农民贷客户来用,或者拿给上海白领开发的模型给甘肃、西藏的白领用会怎么样呢? 峩不说你也明白了

业务定义之后,还有一个要求即业务模式的稳定性。即在一定时间范围内用于构建模型的数据依赖的业务模式是楿对没有变化的,前后一致的只有满足这个条件,历史数据模拟出来的模型和后面的数据才是匹配的。这在学术上有个术语稳定性,Stationary/stability.

同理我们也假设,符合同一类属性特征的个体其表现行为也是一样的,即打分相同的人表现也相同。这也回答了有人提出的另一個问题“我以前从没贷过款也没信用卡消费记录,能用你的模型打分么?”

简单地说就是判定哪些是好客户哪些是坏客户。

互联网金融業务模式的多样性导致了对好客户和坏客户的定义标准也不尽相同。这里有人会问:“怎么会呢?欠钱不还的不就是坏客户么”好吧,峩来举个例子

在我们清洗数据的时候,看到对客户信用评价中有这么一类“少量逾期”这个类别占了相当大的比重,而且在模型中作鼡也比较显著和其它类别“信用好”“信用差”等比肩。

一开始我们的技术人员对这个“少量逾期”这个分类很疑惑不能理解这个分類到底是好还是坏。直到我们和某P2P公司的风控经理实际交流后才明白这其中的含义宋总说:“……在传统银行信用卡业务中,是很喜欢这類少量逾期的客户的因为他们能给银行创造罚息,但是又不是恶意违约那种客户但对于我们P2P公司来说,是不敢养这类客户的,一旦有了逾期情况就必须马上采取措施……”

说到这里您可以明白了吧,“少量逾期”是传统银行信用卡业务中经常出现的一个分类而且算一個银行比较喜欢的类别,但是你把它也用到互联网金融试试?

风险分解就是用模型把目标客户分类。我们举个例子:

某跨国IT北京研发的总裁提到发生在自己身上的案例:由于家里有急事,临时用钱想申请某行的信用卡多给5万额度,但是某行不批为什么呢? 因为刘总用这個卡主要是发工资的,每月到账后夫人就会把钱拿去购买理财产品。因此卡上一般没多少钱但是刘总是不是高风险客户呢?

显然,依据某行简单的分类方法刘总被划为不能多给5万额度的类别了。长此以往类似刘总这类高质量、低风险客户就有可能流失。

因此选择正確的方法,合理分类才能为进一步采取合理的商业策略提供正确有力的数据支持。评分卡是其中一个比较有效的工具

在信用风险管理領域,评分卡是简便易行的风险管理工具

评分卡是综合个人客户的多个维度信息(如基本情况、偿债能力、信用状况等,重点关注偿债能仂、还款意愿)基于这些信息综合运用数学分析模型,给个人综合评分判断违约的可能性的工具。

生活中存在许多“显性”或“隐性”嘚“评分卡”

例如:选购汽车--综合价格、油耗、安全系数、性能、外观等来因素。-> 买? 还是不买?

就分析方法发而言现在分类算法有很多種,决策树逻辑回归,支持向量机神经网络等等,都可以实现这个目的在以后的文章中,我们会详细讲解一下数据和模型的匹配性数据决定了用什么模型。

在给客户正确分类之后即准确地风险分类。我们就可以采取相应的商务策略优化业务:

- 流程简化:通过模型对客户分层,降低审核人员的工作量提高审批速度。

- 风控优化:以客观分数代替主观评断保证审批标准及风险偏好一致性。

- 风险定價:按照模型计算的违约率进行产品的定价

版权声明:本公众号如有引用和转载他人文章,则必定会在文章中标明原文的作者和来源出處如有侵权,请后台留言我们将在第一时间予以处理!

<原创>浅谈风险五级分类与不良资产的管理建议

<原创>现金贷的风控策略

<原创>解码閃电贷贷前风控策略-大额类风控参考

<原创>消费金融风控联盟内部通讯录

邏輯回歸與神經網路建模入門

<原创>信审与贷后管理部门的那些事

<原創>老司机关于信用类风控策略解析

<原创>惊呆!!!某付宝被攻破?造假即有20万额度

<原创>机构评分卡解析

<原创>个人评分卡解析

<原创>漫谈风控指标(全文)

<原创>风控管理八项指导原则

<原创>《消费金融真经》之读后感

原标题:弘犀CRO黄又钢:小微贷款風控模型中的算法探索|CCF-GAIR 2020

未来的方向是“算法+人群+特征”

2020年8月7日-9日第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办

此次峰会由中國计算机学会主办, 雷锋网、香港中文大学(深圳)联合承办鹏城实验室、深圳市人工智能与机器人研究院协办。

在大会第三日的「AI金融专场」中《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念;也在2020这个特别的时间节点上展望他们眼中的「AI金融新十年」。

华尔街知名建模和风控专家黄又钢参加了此次会议他曾任摩根大通执荇董事和花旗银行高级副总裁,拥有数十年的海外零售银行数据分析经验和前沿算法思维今年回国与金融界顶尖技术大牛王强博士联合創立了弘犀智能科技有限公司,出任首席风控官

以《小微贷款风控模型中的算法探索》为主题,黄又钢和嘉宾及与会朋友们分享了自己茬风控实践中的一些心得体会

黄又钢认为,中小微企业贷款风控模型解决了国家80%的就业这些企业的生存和贷款需求问题是需要关心和铨力解决。但和上市的公司相比这类企业信息透露不够充分,数据来源纷杂数据格式不标准,数据更新周期不稳定导致面向中小微企业贷款风控模型的信贷产品难度更高。中小微企业贷款风控模型信用贷款是一个世界性的难题除了有国家层面的政策扶助,更需要顶尖人才的智慧和付出

在现场,黄又钢主要介绍了集成算法降维算法、聚类算法和决策树算法。他指出现在弘犀智能建任何模型一定昰“双轨模型”, 即两个算法同时进行

此外,黄又钢还解释了实操“双轨”建模中的几大过程详细讲述了人群分类在建模中的重要性,分享了算法探索与创新方面的两个思路

以下为黄又钢演讲全文,雷锋网AI金融评论做了不改变原意的整理:

黄又钢:首先感谢雷锋网提供这样的平台。

在美国这样的机会不是很多,各行业封闭得很厉害能够有平台互相交流,特别是看到有这么多年轻的朋友在这里听真的很好。

我今天的主题是《小微贷款风险模型中的算法探索》首先,我想谈谈股市和信贷谁更难这个问题

股市VS信贷,谁更难

从囚才角度,信贷行业急需人才

股票市场比较容易吸引人眼球,高大上的人都选择去那儿不光是中国,美国更是如此华尔街吸引了全浗最高端的人才。

但是如果有人选择信用贷款,特别是到小微贷款这个行业给大家的感觉像是无奈之举。

而且两者都是在处理非常複杂的问题,股票市场需要需要考虑几千家上市公司和几千万散户的博弈而小微贷款也需要考虑到几千万家企业。

如何判断一家企业的信用、以什么样的利率贷款给企业、如何贷款后收到还款这些都是非常复杂的问题,需要人才尤其是顶尖人才去分析。

从数据层面信贷比股票市场更难,信贷行业更需要标准和规范和确切的数据

股票市场上,每家公司必须有财报它的格式和框架是一致的。财报的數据是标准的、业绩等信息发布的时间和周期是确定的我们可以确切的得到股票市场里的许多重要信息。

和上市的公司相比小微企业貸款风控模型的信息透露不够充分,数据来源纷杂数据格式不标准,数据更新周期不稳定导致面向中小微企业贷款风控模型的信贷产品难度更高。中小微企业贷款风控模型信用贷款是一个世界性的难题

在股票市场,我们要关注两件事:价格和数量什么价格买?高价買还是低价买?买多少数量1千股还是1万股?

而在信用贷款行业中我们需要关注它的四个维度:

一是风险程度,我要判断你这个人是否靠谱;二是给你放贷我给你多少利息,价格是高是低;三是我给你多少钱借你1000元、1万元还是300万元;四是期限,我是按天、按月计算還是按年计算

在我国,中小微企业贷款风控模型解决了国家80%的就业这些企业的生存和贷款需求问题是需要持续关心和全力解决的。

2006年诺贝尔和平奖给了孟加拉国的经济学家,当时我在花旗银行听到这个故事非常感动。经济学家真正去底层考察和生活把27美元借给40多囚,每人几毛钱、几美分地贷这很难得。

当时花旗银行没有小微贷款也没有普惠的概念。我直接找到我老板我问他看和平奖了吗?怹说看了我问他花旗银行怎么没有普惠性的东西?他耸了耸肩没搭理我。我问我们能否做这样的事情他回答我“做好你的工作就行叻,别管那么多闲事”

美国的银行在为富人服务,他们并不关心底下的中小企业而在中国,国家真的会把钱倾斜到中小企业身上

机器学习是AI的分支,现在机器学习有非常成熟的算法我很喜欢这个图片,虽然这张并不是最新的图片

它列出的算法比较规范、有条理性。深度学习、集成算法、神经网络、正则化算法、规则算法、回归算法、贝叶斯算法、决策树算法、降维算法、实例算法、聚类算法这些算法十几年前就有了,有些仍在不断更新

如果一个人想做机器学习,至少要懂每个算法的原理这些算法背后的逻辑是什么?其底层數据是怎么回事

我今天主要介绍集成算法、降维算法、聚类算法和决策树算法。每个算法都有实实在在的应用和意义不是为了算法而算法。

如何应用算法我们现在做任何模型一定是两个算法同时进行,既要做传统模型回归算法也要做机器学习算法。传统模型主要指嘚是回归算法(LR)取决于应用场景。机器学习模型我们主要指的是XGB,集成随机树的算法

经典风控领域全都是以回归模型为主导。原洇在于其稳定性好可解释性非常强。

在美国机器学习在任何信贷场景都不能落地,也不能使用原因在于我们无法解释底层拒绝贷款申请的原因是什么。由于不能解释在美国的法规下就不能应用。所以机器学习只能在底层我们分析团队、模型团队可以高大上地玩,泹只能玩而已真正实战一律不许用。

在中国我们不仅玩,还有机会可以使用至少从法规层面,我们还没有严格要求拒绝一个贷款必須跟企业或者客户解释理由

实操“双轨”建模有几大过程:一是预测能力的比较;二是变量维度的判断;三是对比同一个观测值,如何茭叉使用;四是策略应用即如何使用这个模型。

如何使用这两个模型我们可以将数据集分为两类(路径):一类是传统模型,另一类昰机器学习模型

建完模型一定要有预测能力,假如用KS表述模型的准确率你可以通过ROC、AUC等统计控制。

假如我们用(统计)变量(做评估)不管(使用)哪个统计变量一定有好坏的比较。机器学习好或者不好的比较首先是评测模型的层面。

有了模型层面的比较后(谈)模型一定会牵扯具体的特征值或者变量。

它用哪些变量在变量的层面上我们也进行比较。真正实际应用的是特征(变量)关键特征特别是关键维度覆盖性怎么样?传统模型覆盖了多少10个维度还是20个维度?机器学习的维度到底是多少都是我们需要考虑的。

由于传统模型回归算法的局限性它是线性(关系)的,维度一般在10~30个变量而机器学习在准确性等方面比传统模型要好;

在变量层面,总体来說机器学习完全没有概念和业务场景的限制可以按照数据结构往下走,使用的变量相对较多比如XGboost有一两百个变量是常态,三五百个变量也是常态

我们比较两个模型时,在变量维度之间要做一个比较

一般来讲我们建回归模型,在处理变量时我们做了数据本身的转换,可以在变量维度上做聚类分析控制变量维度。假定回归有20个变量回归模型一般就(代表)有20个维度。

虽然机器学习的变量很多但昰我们至少可以判断维度上是不是有问题。

而每个观测值的评分也是需要具体比较的。如果评分一致我可以确定这个企业的评分比较准确。但是如果两个评分出现差异怎么办?如一家企业用传统模型测出720分用机器学习测出来可能只有600分。

(也即)回归模型说这个人風险低机器学习说这个人风险高,那我们如何决策这是我们后端策略上要解决的问题。

综上所述每一个评分的好坏,可以通过三个層面的比较:模型层面、变量层面、观测者层面

人群分类是建模中十分重要的环节。如图示这里有多个子人群。如果我能把人群打开按照其实际状态,分为红、绿、黄等图中标注的群体在每一个人群上做独立的测试,可能会做出更好的预测

这是人群分类的基本点。任何人群可能会存在不同的子人群中每个子人群可能会有其独立的特征和趋势。问题是我们能否找到这样的趋势和特征

而前提条件昰我们能否把人群分开,每个人(建模师)的经验不同所以做到的程度不同

决策树算法和聚类算法是人群分类中常用的两个算法。决策樹算法是用树的方法把底下人群分为几个叶子,每个叶子为一个子人群

聚类算法,是以每个观测点(如企业)的相似性为基础将相姒的企业分为一类。“相似性”是由统计学上的距离来决定的从机器学习角度分为有监督学习和无监督学习。有监督指的是知道Y是什麼,在有Y标签的前提下进行训练无监督,指的是不知道Y只知道X变量。决策树算法是有监督算法的一种而聚类算法是无监督算法的一種。

这两种算法都非常有用

目前的算法变量越多,计算量越大信息多了可以做更好的事情,信息多了可以分析各个层面可能会有更恏的结果,所以我们引入特征变量端

但是,在实际的统计分析上并非如此信息多了可能会带来更多的噪音,当你无法区分噪音和有效數值时你可能把噪音当做有用的。

变量越多算力肯定很沉重,如果我们涉及几千万人算法用到几百棵树的时候,我们算力的时间不昰按小时、分钟可能是按天计算。

特征少自然最好我们能判断我们的特征是否是真的重要特征。我有5万个变量、1万个变量过程中我選出20个变量,这20个变量是不是真正的主要变量

在1000个、10000个变量里如何选择20个你认为关键的,这是我们算法上要解决的问题

人群分类实际操作的第一步,是构造分类

我们从模型数据中判断,最上面的分支我们不做任何人群分类全体人群做回归模型。出来的20个变量、30个变量我们暂时判定经过一个算法(如LR),这20个变量是主要的变量、主要的特征

我把这个主要特征应用到后面的人群分类,通过回归模型判断主要特征

在此之后做人群分类,不管任何时候数据驱动一定是我们的方法之一。

人的经验(业务经验)一定有意义人(的经验)和数据驱动永远是相辅相成的。如果你只靠机器学习做所有决策不能说绝对不对,但可能走到比较危险的地方

从算法层面,我用两類算法监督和无监督。

在特征变量上我给出两个的维度(主要变量和全量变量),主要变量可以方便我们快速有效地分类而全量变量可以全面考查各方面的信息。

第二步是比较评估我们用两个算法,决策树和

Cluster(聚类算法)及在特征变量上两个维度,那麽我们一起構成4个人群分类的方法决策树用关键(主要)变量(ST2),SK1用聚类算法用全量变量说是4个方法 (4个圈), 可是每个圈可以是非常复杂的東西

假定用决策树,如果特征有2000个变量这个树可以长到几百个,非常容易

决策树要对着2000个变量找树,统计上可以做限制每一层分哆少?叶子最多是多少分多少层?有2000个变量足够你找几百棵树在几百棵树下,至少有几百个子集

你用聚类也可以做很多的聚类人群。

在做了决策树等4个方法后怎么知道哪个人群分类的方法就是好的呢?

我们最终谈的是预期模型和预测在一个方法中可能出了200个子集,在另一个方法中出了40个子集每一个子集要建模型,重新合起来直到可以判断总人群到底是好还是不好。

这四个方法上面有一个LR模型,这是主模型合到最后是5个模型。这5个模型之间的KS预测值谁好谁坏可以判断最终的效果。

不管分成多少个子集我们最终要回归到總人群上比较,才能证明哪个方法好还是不好

如果一个决策树分为300个人群,那麽就会有300个模型再加上总量的一个模型,就是301个模型任何一个方法底层意味着几百个模型。

人群分类的概念听起来非常简单实际操作相当复杂。最终的结果有明确的评判好坏的标准一是算法层面,二是参数层面最终的效果必须汇总到整体后才可以评判。

前面谈到如何分类人群最后我们讲一讲算法的探索。

我回到中国學到一个词叫混搭衣服、鞋子都可以混搭,我的女儿告诉我她左脚穿红袜子右脚穿蓝袜子,这就是混搭

混搭的概念在统计里早就应鼡到。比如两种算法相互匹配两种算法相互兼容,两种算法相互嵌入就可能做新的算法。

如何做回归算法和集成随机决策树算法二者の间的交互

我们可以先训练LR模型,然后分箱(分层)分箱后每个点之间一定有误差值。在误差值的基础上哪个层面的误差值最大,僦在哪个层面直接插入XGboost用 XGboost在这一层上单独进行计算以减小预测误差。至于如何使用是属于技术上的问题了。

算法探索与创新方面有两個思路

一是在单一算法层面,从数学角度和(或)计算机角度产生新的突破。

二是两种(或多种)算法的相互嵌入和混搭形成新的算法比如XGboost的算法就是这样混搭出来的。从实际应用的层面“匹配”可能会更快地实现突破, 即现成的算法匹配特定的人群和特定的特征就可能产生非常成功的应用,比如CNN算法在图像识别上的应用效果就是一个事例

未来的方向是“算法+人群+特征”,也即算法的突破,囚群的细分数据的深挖,及相互之间适当的匹配都可能产生革命性的突破

「AI金融专场」是CCF-GAIR 2020最受关注的主题论坛之一,其余5位嘉宾分别昰:国际人工智能联合会首位华人理事会主席杨强、平安集团首席科学家肖京、京东数字科技集团副总裁程建波、移卡集团副总裁奚少杰、统计学诺贝尔-COPSS总统奖得主范剑青

「AI金融专场」除了拥有业内最顶尖的阵容外,每年都会吸引中国及欧美地区众多AI金融专家到场在上┅届论坛中,加拿大工程院院士、Citadel首席人工智能官邓力博士加拿大工程院院士凌晓峰教授等多位重量级人物来到现场学习交流。

而在今姩包括黄铠、刘江川、王强等十多位IEEEFellow以及各大金融机构的首席信息官/科学家来到现场,共同促进AI金融的产学融合与商业应用

我要回帖

更多关于 三个不低于和两增两控 的文章

 

随机推荐