简述金融市场AI领域要高智商吗中AI具体是如何应用的

人工智能在金融科技领域的应用人工智能在金融科技领域的应用中国安防行业网百家号当前,科技对金融的创新不断走向深化,尤其对金融产业链的深度介入,让金融科技市场仍存在广阔发展空间。金融业无疑是尖端科技运用最迅速的行业典范之一。金融机构基于人工智能与大数据等金融科技的发展,不仅风险控制更加严密,运营成本逐渐降低,信贷损失率得到保障,而且服务流程也变得更加高效、安全。  一、人工智能在金融领域的五大应用场景  应用场景一:征信与风控  近几年,国内P2P和现金贷的大量涌现,说明了个人小额信贷的市场需求巨大。在过去,针对该类小贷用户,一般单纯地依靠地推人员挨家挨户进行实地征信。如今,基于大数据和人工智能技术,可以实现智能征信和审批,极大地提高工作效率。通过多渠道获取用户多维度的数据,如通话记录、短信信息、购买历史、以及社交网络上的相关留存信息等;然后,从信息中提取各种特征建立模型,对用户进行多维度画像;最后,根据模型评分,对用户的个人信用进行评估。同样,对于市场上中小微企业融资难的问题,也可以通过大数据征信得以解决。  相对于征信,在风控中,贷前要识别贷款人信息的真实性,还要识别其还款意愿和还款能力,贷中通过监控贷款人的行为数据及时发现异常,贷后通过反馈数据补充信用评分。在这个过程中,利用用户数据积累和人工智能技术建立有效的智能化风控体系是核心能力,直接决定着一个平台能否持续健康地运营。  应用场景二:反欺诈  金融安全是维护金融秩序的基石。与虚拟的社交网络不同,金融用户需要验证身份的真实性,其中可能涉及的技术包括人脸识别、语音识别、指纹识别和虹膜识别等。相对于我们人类,人工智能在此领域往往表现得更加优异,不仅能缩短识别时间,还能降低识别错误率。如今,越来越多的人工智能应用出现在现实生活中,比如指纹付款、扫脸取款等。  此外,人工智能在网络反欺诈方面也发挥着巨大的作用,机器可以从海量的交易数据中学习知识和规则,发现异常,比如防止盗刷卡、虚假交易、恶意套现、垃圾注册、营销作弊等行为,为用户和机构提供及时可靠的安全保障。  应用场景三:智能投顾  智能投顾是在多个市场和大资产类别之间构建投资组合,分散风险,追求长期收益。  与传统方式有所区别,智能投顾可结合现代资产组合理论和投资者偏好为投资者提供建议,加快释放投资理财的“长尾”市场,具有佣金低和信息透明等特点。更通俗点说,智能投顾实际上是把私人银行的服务在线智能化,服务更广泛的普通老百姓。  当前,智能投顾平台已经在国内市场出现。2016年12月,招商银行摩羯智投正式上线,这是国内银行业首家推出的智能投顾服务。据介绍,摩羯智投运用机器学习算法,融入招行多年的业务经验,在此基础上构建了以公募基金为基础的、全球资产配置的“智能基金组合配置服务”。在客户进行投资期限和风险收益选择后,摩羯智投会根据客户自主选择的“目标-收益”要求,构建基金组合,由客户进行决策、“一键购买”并享受后续服务,使得投资小白也可以轻松使用。  应用场景四:营销与客服  在金融平台上,如何识别有效的客户往往是难点。而人工智能可以通过用户画像和大数据模型精准找到用户,实现精准营销。  另外,在客服中,用户咨询的问题大都是重复性的,而且往往限定在几个特定的领域内,这些特点使其成为自然语言处理和智能客服机器人的极佳选择。通过智能客服机器人可以发掘用户的需求,解释和推荐产品,还能带来销售转化。智能客服可以解决用户的大部分问题,在非常确定答案的时候可以直接回答,在不确定时把可能的答案提供给人工客服,由人工客服判断选择最佳答案发送给用户。这样极大地提升了客服效率和用户体验,同时也降低了人力成本。  应用场景五:投资决策  在投资机构和投行部门中,日常的工作如收集大量的资料、进行数据分析、报告撰写等,往往占用了大量的时间和精力。而在处理海量的数据信息时,机器拥有天然的优势,通过自然语言处理技术可以理解文本信息,寻找市场变化的内在规律。一个经典案例是沃尔玛超市发现尿布和啤酒放在一起会增加销量。大数据可以发现看似毫不相关的事件间的关联性,应用在投资领域也会有同样的效果,比如苹果发布新手机会影响哪些公司的股价等。  人工智能还能够根据收集到的市场历史数据进行预测,分析判断企业的成长性,从而辅助投资决策。一个著名例子是,美国最大的信用卡行CapitalOne的两名员工利用职务便利,分析了至少170家上市零售公司的信用卡消费情况,并据此预测这些公司的营业收入,然后提前购入看涨期权或看跌期权,三年内投资收益率高达1800%。虽然是反例,但对于智能预测应用有很好的启发意义。  此外,机器还可以根据收集到的资料,自动生成大量格式固定的文档,比如招股说明书、研究报告、尽调报告和投资意向书等,从而提高效率,减少枯燥的重复性工作。  二、典型的应用实例  (一)人工智能在fintech的应用  人工智能正是我国金融科技高速发展的代表,为我国Fintech行业带来巨大发展优势。随着深度学习、语言识别等技术的深度应用,人工智能的发展正如火如荼。  7月20日,PPmoney万惠集团大数据算法总监黄文坚在出席“2017中国行业云计算峰会—金融云”时发表了主题为《人工智能在fintech的应用》的演讲。黄文坚认为,金融数据中很多有时间序列数据,特别适合使用深度学习,尤其是卷积神经网络、循环神经网络。阿尔法狗底层的平台是TensorFlow,目前人工智能最好的实践是TensorFlow,它是目前排名第一的框架。通过TensorFlow实现全连接的神经网络,在金融的问题中对数值型和种类型数据使用全连接的神经网络,舆情分析在很多地方都会使用到,尤其一些大型的金融机构;现在很多券商会做金融报告,怎么把几万字的报告浓缩成几段话,使用深度学习完全抽象生成的方法,它会尝试理解整篇文章的含义,将每段每个大篇章转换成1-2句的总结,让分析员判断文章的主旨思想。黄文坚看来,人工智能非常适合在金融科技中应用,并在多个领域都发生了改变,未来会有更多金融相关领域可以被算法以及模型自动化的替代,降低成本,提高工作的效率。  (二)人工智能加速金融普惠化  作为国内领先的普惠金融服务提供商,平安普惠在金融科技运用方面更是走在了业界前列。成都2017平安普惠西部媒体沙龙上,平安普惠品牌总监程瑞先生分享了该公司在人工智能等金融科技上的精彩观点,并表示每个人都能拥有&信贷权&,人工智能是促进其加速落实的关键点。  大数据技术、机器学习等人工智能技术或许正是破解传统信贷困境,保障人们信贷权的关键。过去金融机构主要通过查询申请人的房产、社保、银行流水等评估其是否具备良好的还款能力,利用征信记录等第三方数据评估其还钱意愿高低。而借助人工智能技术,金融机构可以更快捷、更高效进行借款人风险评估,大大降低了放贷成本与贷后风险。  除了大数据外,人脸识别、微表情、心理测量等技术也被引入以弥补征信数据的缺失,构建更加严密的风控机制。&平安普惠从2015年初就引入人脸识别技术,目前主要线上贷款产品都使用了这个技术,准确率达到99.8%。&针对客户面签时欺诈风险鉴别的缺失,平安普惠还引入了全新的微表情技术,通过机器观察客户细微的表情变化,有效识别客户欺诈风险。  三年前,平安普惠率先开发了全新的贷款产品iloan,3万元及以下贷款可以全线上完成,借款人只需输入身份证号、银行卡号和姓名等信息,后台自动连接公安部和银行系统和外部大数据平台,在借款人授权的情况下经过综合判断,决定是否放贷以及放贷金额。经过多年的优化升级,又融入了人脸识别、声纹识别和其他金融科技,使整个风险决策更加严谨、合理和科学。目前,平安普惠大部分主要的贷款产品,包括最高可以放款50万元的无抵押产品,都可以实现全线上申请流程。单一房产抵押贷款最高可以达到500万,除了监管要求必须线下办理的入押环节外,其余贷款业务申请流程都可实现线上办理。  据平安集团2016年年报显示,平安普惠累计客户数超过377万人,累计贷款量达2720亿元,线上销售网络覆盖中国全境,线下网点覆盖超200个城市。这些数据的背后,正是源于人工智能等科技的支撑,这些金融科技解决了金融机构自身风险管理难题,在覆盖最广泛的人群的同时,也为客户带来了全新的贷款体验。  (三)AI股引领人工智能投顾新风尚  在日前的第三届极客公园奇点创新者峰会上,凡普金科联合创始人、爱钱进CEO杨帆,向外界介绍了其研发的自动建模机器人——水滴(RobotModeller),该机器人就融入了大量人工智能技术。凡普金科却打破了这一思维边界,借助人工智能技术开展了全面布局。  1.自动建模机器人,将工作效率提升数十倍  首先,金融行业其实是人工智能天然的应用场景,基于图像理解、语音识别能力和自然语言处理等技术,人工智能可以运用在从获客、运营到贷后催收的金融服务全链路环节,充分提高金融平台的运营效率,降低其人力成本和时间成本。一个简单的道理是,科技是第一生产力。所以,凡普金科在业内率先打造了模仿人类建模分析师思维的自动建模机器人水滴(RobotModeller),它可以完成从读取数据到借贷端全自动化的建模。在它的帮助下,原本需要一个建模团队1-2个月的建模工作量如今只需不到1天就可完成,工作效率提升了数十倍,爱钱进借此得以充分应对高速变化的业务。事实上,在人工智能的改造下,“互联网+金融”的局限性不断凸显,“互联网+大数据+智能+金融”这一新型模式正在成为大势所趋。  2.线上信用评估系统,从提供效率降低成本到反欺诈  数据是金融业开展业务的根基,也是保护用户防欺诈的核心。也就是说运用得当的数据不仅对于风控至关重要,还能够提高平台的信审工作效率。凡普金科的线上信用评估系统同样采用了人工智能和大数据相结合的技术,一方面,其智能风控模型可以通过算法分析找出假账单规律,帮助风控团队制定新的反欺诈规则,优化了风控系统的安全性。  另一方面,基于对行为数据的智能分析,人工智能在遭遇欺诈时同样可以可有效发现异常行为,如在同一台设备前后两次输入不同的身份证号码进行验证,而通过知识图谱辨别还可发现异常关系,将反击工作进行的行之有效。也就是说,这个评估系统同样提高了信审的工作效率,降低了平台成本。  3.智能投顾是下个风口,抢先卡位布局  值得一提的是,限于人工智能技术水平,目前真正意义上的智能投顾、智能理财还处在初级阶段,但是随着技术的发展,未来科技金融或许会站在全面自动化的风口之上。而凡普金科也在从国内外金融机构以及高等学校引入多位技术人才,建立起了一支数据科学家团队,持续加强在大数据算法、人工智能等领域的探索。其实,业界公认一个事实是人工智能竞争的核心是对人才的竞争,人工智能领域当前正处于不断突破技术瓶颈、投入广泛落地应用市场的阶段中,人才是最核心的资产,没有人才推动,那么一切技术进步、应用落地乃至行业的快速发展就都无从谈起。  目前,凡普金科旗下网络借贷信息中介平台爱钱进累计撮合交易额已经超过590亿元,累计服务用户数超过900万人,在网贷之家最新发布的《2017年6月网贷平台发展指数评级》中位居全国第6。事实上,从用户群体的金融需求出发,凡普金科已经构建出了自己的互联网金融生态圈:包含网络借贷信息中介平台“爱钱进”,专注于提供定制化的小微借款信息服务“凡普信”,在线信用借款信息服务平台“钱站”,消费分期平台“任买”,练股和选股APP“会牛”等众多业务。在这个不断完善发展的生态圈背后,人工智能技术的推动助力功不可没。  三、人工智能在金融领域应用的瓶颈  在行业发展初期,业内人士认为,国内智能投顾发展面临三大难题:监管、模型和用户。  去年证监会曾强调,“发现互联网平台未经注册、以智能投顾等名义擅自开展公募证券投资基金销售活动的,将依法予以查处”。实际上,监管不是针对“智能投顾”,而是打击没有牌照的机构,顶着“智能投顾”的名义,代销基金。年末,招行摩羯的出现,再次表明了监管的态度,有牌照资质的机构,安心探索;没有牌照的,就安心研究技术,别乱碰销售。  另一方面,智能投顾通过一年多的摸索,基本已解决数据模型的问题。之前外界普遍认为,因缺乏行业大数据,中国又是“政策市”,导致模型很难确立。“但实际上,市场的数据和产品的数据都是非常标准化的”,璇玑CEO郑毓栋解释,“虽然某一个基金产品可能是近几年才出现的,但整个市场,比如美股市场、A股市场、黄金市场,这些数据都是特别久的,足够搭建算法模型”。因为中国的国情特殊,不是所有的数据都适用,需要一定的清洗。互金行业专家顾崇伦表示,“一些极端的数据,诸如2006股改前、黑天鹅事件等,这些数据,不适合放在通用模型中”。也就是说,数据并不缺,剔除极端数据后,已足够搭建模型。  解决了监管、模型问题之后,行业现在最难突破的,是获客等生存问题。  “很多平台运营了一段时间后,发现获客很难,即便注册后,智能投顾表现不稳定后,用户就马上流失”,某智能投顾平台负责人称,这一流失,就是永久性流失。“获客,才是智能投顾面临的最大挑战”,顾崇伦表示,“直到现在,依然是创业公司最大的软肋”。  这实在不能怪智能投顾,中国的投资用户的心理,实在算不得“健康”。  国内用户投资偏好两极分化严重:一种是赌徒心理,喜欢刺激的“追涨杀跌”,信奉“短期翻倍”,以炒股的散户为主要代表。另一部分,是“绝对保守”、“风险厌恶”用户,他们习惯把钱存在银行,或尝试一些相对安全的货币基金。对于这两类用户,智能投顾这个小机器人不太“讨喜”。“智能投顾的优势,在于长期稳健的分散投资,是一个控制风险波动的产品”,郑毓栋称,短期投资,智能投顾的优势并不能展现,“以璇玑为例,去年来看它的收益不能算高,短期还有些小幅的亏损”。也就是说,智能投顾擅长的是“长期投资”,而非“短期投机”。激进的用户,瞧不上智能投顾的收益;保守的用户又担心资金的“保本”问题。在网贷行业爆发后,中国还产生了一批新的“理财用户”。  “最开始,P2P平台就是以高息迅速网罗一批种子用户”,顾崇伦表示,但这种简单粗暴的获客方式,显然不适合温吞的智能投顾平台。  《华尔街见闻》曾挑选了一些代表性平台,以中等风险为标准,对比了不同智能投顾平台去年下半年收益表现:一波波的降息潮后,P2P网贷平台已告别了动辄年化20%以上的高息,网贷行业平均综合利率已经降为9.68%(网贷之家数据)。对比来看,温柔的智能投顾,利率对他们也没有太多诱惑力。这就是行业现状,智能投顾的表现,尚没有搅动用户热情,反应平平。  市场的冷清和资本的火热,形成了鲜明对比——它依然要面对很多中国式难题,关乎人心,关乎心态,关乎投资理念,这恐怕都无法短期内解决。  结语:  长远来看,人工智的优势是不容忽视的:智能设备可以7×24×365连续不间断地工作,不需要休息和度假;通过对大量数据进行筛选分析,帮助人们更高效、更准确地决策,降低决策难度;在分析问题时不受情绪和环境的影响,在一定程度上可以避免操作风险和道德风险。而金融行业是天然产生数据的行业,同时也是数据最能产生商业价值的地方,具备了成为人工智能具体实现的巨大优势。本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。中国安防行业网百家号最近更新:简介:中国安防行业协会官方网站作者最新文章相关文章AI在金融风控领域的工业应用 | 硬创公开课
来源:雷锋网
作者:伊莉
  高风险、高收益是金融行业永恒的标签。也因如此,金融行业非常重视风控。据多位资深金融人士表示,从事风控后,他们总是处于战战兢兢的忧虑中。他们上一次大规模的忧虑发生在十几年前。世纪之交的美国缺乏对于风控意义的认知,明明借着互联网的东风却在半途摔了个七零八落。  新科技的出现必然会对原行业产生一定影响。技术无所谓利弊,问题在于人的使用。在风控得到足够重视,AI成为最热门科技的现在,诸多从业人士不由得开始思考AI的应用价值,如何将AI与风控相结合并发挥出其积极作用?  本期雷锋网公开课邀请到氪信资深数据科学家朱敏来分享他的从业经验,深度讲解如何构建基于AI的金融风控系统。  嘉宾简介:朱敏,氪信资深数据科学家,深耕应用统计和数据挖掘领域。复旦大学生物统计学硕士,曾任职PayPal高级分析师,负责核心风险控制数据变量、排序策略、评价指标的设计研发,并在反欺诈策略、行为特征等方面拥有丰富的研究经验。曾任职数据分析师,负责AB测试与搜索算法的评估。多年以来专注金融统计和风险评估算法研究,在互联网级别的机器学习算法和统计理论商业应用领域有着丰富的理论研究和实践经验。  以下是本次公开课实录,雷锋网做了不改变原意的编辑:  今天给大家分享的主题是AI在金融风控领域的工业应用,我主要负责数据和模型,所以今天的公开课除了分享宏观想法,在具体实践方面也会比较偏模型和数据。其实这个主题是非常大的topic,所以会聚焦到金融尤其是消费金融领域,阐述我们氪信是怎样利用互联网、机器学习和技术和经验去解决实际问题的。  (,,)I时代已到来?  首先我想跟大家分享三个数字――40万亿消费信贷、35%征信覆盖以及44ZB数据。  有资料显示,2019年中国的消费信贷市场会达到40万亿,而在2015年这个数字还只是20万亿,这几年都保持着很高的增长速度。我们可以看到市场规模很大,并且在不断变大。  而征信覆盖率并没有保持与市场规模的同步。第二个数字是35%,这是指消费金融领域只有35%的客户是有征信记录的,剩下65%没有信用记录,所以并不能用传统、成熟的风险评估方法去评估这些人的风险。  第三个要分享的数字是44ZB。对于65%没有传统征信数据的这类人,我们可以收集其他相关数据去评估,这相关数据可能是申请资料、互联网使用记录、通信记录等。而由于现在硬件的发展、数据收集的自动化,我们是可以收集到很多数据的,这个数据量也很庞大。大数据一方面是好事,另一方面也是一个难题,例如怎么运用一些技术手段从大量的数据中提取信息。而我们觉得消费金融是切入AI商业场景一个很好的契机。  大数据时代金融风控之痛大数据时代金融风控市场规模大,需求旺盛,但要解决的问题很多。  从技术层面上来讲,有三个问题。  第一是价值困境,虽然已经意识到了大数据的价值,但不知如何实践,怎样从数据中挖掘出有用的信息。  第二是高维困境,对于65%未被传统征信覆盖的人群来说,他们的特征维度非常高,往往会产生上千维变量,那么该如何处理高位特征,如何将其有效融合,形成1+1>2效果?  第三,敏捷困境。在人工智能和风险评估不断发展的同时,我们的敌人的欺诈演变速度也非常快。一旦发现了业务上的一个漏洞,它就会去钻模型的缺陷,利用缺陷来达到利益最大化。而单一的个体欺诈也正在演变成有组织、有规模的群体欺诈。  从战略层面来说,以上问题带来的后果是风控决策低效耗时,员工成本会很高,坏账率则更高。在金融场景里,一定需要人工智能、机器学习去帮助解决问题。  构建基于AI的金融风控系统  上图展示了一个理想的基于AI的金融风控系统。从左往右讲,我们一开始会去收集各个层面的数据源,这些数据源里包括交易数据、高价值黑名单,这些都是比较常见的传统信用数据。此外,我们也会搜集互联网行为、运营商数据、信贷申请资料等。  不同的数据源融合到一起的时候也会借鉴知识图谱技术,在知识图谱之上再去构建高价值金融属性的特征。  数据融合后有上千维度特征,接着我们会做一个基于深度学习的特征加工工程。再下一步是构建模型,这里列出了一些非常主流的机器学习、深度学习模型,像XGBoost或者是深度神经网络,这些模型再加上已经加工出的高价值金融特征,我们觉得这样就可以解决实际金融风控当中会遇到的问题。  而在解决问题过程中,经验会被抽象化,所以我们也会把这些经验转变成一个产品。上图列出了几个风控引擎,包括把刚刚提到的金融特征做成特征引擎、模型引擎、规则引擎,这些产品会帮助我们更好地积累数据,也更好地把已经积累的经验应用到更多场景中去。  接下来的内容也会按照这个模型来讲,首先是数据管理,关键字就是金融的知识图谱。第二部分是基于深度学习的特征工程。最后是集成模型,就是我们怎样把这些数据特征构建成一个分类模型来帮助我们判断。  知识图谱:重新定义金融数据架构体系首先看知识图谱。知识图谱是谷歌在2012年5月发展出来的可以将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。本质是一个语义网络,是一个基于图的数据结构。在知识图谱当中,实体会被表示成一个节点,节点和节点之间会用关系来连接,所以这个构造方式和传统关系型数据网络是完全不同的。  在金融场景里,相比于传统的关系型数据库,它存在一些优点。  首先,金融知识图谱可扩展性更强。我们收集到的数据源无论是从结构上还是内容上来说,其实都有很大差别。如何管理这些不同结构和内容的数据源从来就是关系数据库一个大问题。  但是如果把所有的数据和知识都表示成知识图谱可以接受的结构,我们就可以把异质异构的数据统一融合在一起。无论是新的数据源变化,还是原有数据源的数据结构发生变动,都可以灵活地调整。这个灵活也是基于知识图谱的特点,无论是对于节点还是对于关系而言,增加或者更改它的属性都是非常灵活的。  从上图中,我们可以看到在金融风控中用到的数据还是很多的,包括历史积累数据、实时数据、第三方数据。分类方法当然有很多,但无论是怎么去看数据格式、结构都会完全不一样。  如果构建到统一的金融图谱当中去,对于下游的特征加工和模型其实会有很大帮助。对于数据库某一个数据结构的依赖就不是那么强,我们只要优化金融知识图谱的知识结构,工作中的相关问题都可以得到解决。  基于知识图谱的社交网络分析  金融知识图谱的第二个优点从上图中就可以看出来,知识图谱比较直接。用户面对的关系型数据库主要是表。而知识图谱可以将这些关系构建成图,更加可视化。  反欺诈是很重要的一点,在反欺诈中我们经常会做交叉验证。一个用户有来自不同数据源的特征,如果它们描述的是同一件事情,那我可以去对它们做一个验证。如果这个进程中出现了矛盾,我们会觉得这个人的风险等级偏高。我们设想了一个场景,在这个场景下单独个体的数据源比较单一,在这种情况下,交叉验证是根本没有办法发现矛盾的。而知识图谱可以帮助我们。  上图两个例子印证了知识图谱的可视化和表现力。先看左边,我们要去判断这幅图中蓝点这个人的风险等级,我们能够拿到此人相关的信息有手机号、邮箱等。从这个个体的单一信息上面来看,其实很难判断他的风险等级的高低,但是如果我们把他置于一个网络,比较个体和个体的话,我们会发现一个有意思的地方――他的邮箱和好几个其他个体的邮箱是相同的,并且这几个人在我们的判断中已经是坏人,那么对于这个申请用户风险等级也就有了一个判断。  右边还有一个判断用户风险的例子。如果只看他的手机号或者邮箱,目前比较成熟的方法是去看邮箱是不是乱码注册的或者其他。而把他置于网络中后,我们会发现他的手机号和很多用户的手机号都有联系,并且都是单向的联系。那这个其实是很明显的特征――骚扰电话,类似中介或者是广告骚扰。基于这一点,也可以形成对于这个人的风险等级判断。  这两个例子都很好展示了知识图谱能够包含更多的信息量。这个信息量是可视化的,如果有专家人工去看这些案例的话,会从中找到一些特征来判断这个人的风险等级高低。而在一些先进算法的作用下,可以自动地从社交网络中发现一些特征,自动判断哪些是好人哪些是坏人。  深度学习:超越人工定义的深度以穷尽风险接下来讨论一下特征。数据量大,维度很高是消费金融风控必然会遇到的实际问题。此外,还会遇到很多非结构化数据,例如文本、图像等。这些都不是传统征信会遇到的问题,而这在深度学习领域会有一些很成熟的应用。  深度学习的本质是特征学习的过程。对于人工难以加工的海量非结构化数据,基于深度学习的特征生成框架自动生成特征,能够弥补人工定义特征的局限性。  DNN文本类数据特征提取框架  首先说文本类数据特征提取框架。金融风控过程中其实会遇到很多这样的非结构化数据,比方说申请资料的文本信息,或者是经过授信和合规要求的通讯文本。对于这些文本的分析,NLP领域其实已经有一些很成熟的技术,比如说CNN。而在金融场景中也能提取一些特征。如果这些特征能进入接下来的分类网络中去,它也可以去学习到好人或者坏人的特征。  实践的第一步是文本数据预处理,提取分词或者是关键词,并将每一个词做向量化的表示,然后这些向量化表示会进入一个卷积神经网络,并从这个卷积神经网络中去提取特征。下一步,这些特征会进入一个全连接的神经网络去学习分类,做成分类器。  此外,嵌入学习在其中也展现了很大作用。虽然我们用小规模文本库去学习词向量来做特征也不是不可以,但是我们发现如果使用业界比较成熟的大规模语料库,能提升特征提取的性能。  DNN时序类数据特征提取框架  另一个例子是时序类数据特征提取框架,一句话来说就是,合并学习不同周期和时序模式的循环神经子网络,有效捕捉时序数据的特征隐含信息及不同时序模式下的协同影响 。  在实际中我们会遇到一些问题,比如并没有那么大的工作量去了解每一块的数据具体是什么样子的,分布是什么样的,特征可以怎么提取。所以时序类的特征其实可以借鉴深度学习里的长短时记忆技术来做相同的事情,去做时间序列的分析。它主要考虑就在NLP里,用在文本比较多,就是说上下文之间是有关系的,根据这样的关系来构建一个提取特征的网络,我们把这样的思路借鉴到了通讯记录或者是交易记录当中。  在实际应用中,时序类特征可能是通话记录或者交易记录,所以它的特征不只是在一个阶段面上去提取,还在时间轴上去提取。金融场景中,我们把通话记录分成了不同的周期,按照不同的周期构建了三个LSTM子网络,并且会对这三个时序模式LSTM子网络做一个混合, 这样能大大减少时序数据分析和提取特征的工作量。  融合机器和专家经验,实现全量价值提取  这里还要提到一点,虽然刚才一直提深度学习特征,但是专家的特征也很重要。我们会融合机器和专家经验,实现全量价值提取。因为我们相信专家多年积累下来的成熟的风险评估方法也很有效。基于深度学习的特征智能生成框架,使用不同网络结构拟合不同的数据类型,自动从庞杂、非结构化的数据中生成高质量的深度学习特征,并且与专家人工特征结合共同融入模型。融合特征才会交给下一步模型去学习。  集成模型:最大化AI与现有业务的结合深度  前面已经说了数据和特征,现在说集成模型。  集成学习模型的优势表现在两点:  不同维度/领域的数据具有不同的特点 ,需要使用不同的建模方法,集成学习框架可以支持不同类型模型算法作为子模型。集成模型成果已经很多,所以用集成模型会帮助提高模型的性能是毋庸置疑的。  此外,在实际做金融风控的时候,从一个用户的角度来讲,我们能看到很多,例如分期产品或者消费金融产品,不同产品额度上也会不同,客群不同,获客渠道也不同(线上获客、地推获客)。面对不同的业务方式时,我们最终要抓住的坏人也是完全不同的,所以这要求我们构建不同的模型。那么这是不是要求我们面对不同业务场景都要从零开始去做数据、特征、建模呢?  并非如此。单独领域的子模型可以快速迁移应用到新业务领域,实现快速成型和持续优化。  这在实践中最好的应用就是冷启动,对于一个新上的业务,所遇的坏人与以往的业务是完全不一样的,坏人所采取的欺诈手段也是完全不同,但是因为用了集成模型,有些特征、数据、模型经验都是可以借鉴的,这会有很大的帮助。  集成学习模型在大型现金贷场景的实际应用  上图对之前的内容做了一个汇总。数据有结构化、非结构化之分,并根据不同数据的特点进入不同的特征提取框架。和关系比较近的数据,用网络关联特征的方法去提取;有些数据是文本、图像,用卷积神经网络的方法去提取;时序类的数据,用LSTM方法去提取特征 ;还有专家人工特征提取框架。  综合特征提取框架,综合评估产生三种风险评分:行为风险、社交风险、语义风险。  社交风险其实主要是从网络关联特征体系框架这一块延伸上来的。  行为风险主要从互联网的行为、运营商这一块延伸上来。  语义风险主要从申请资料、通讯文本两方面来评估。  最后根据这三块风险做一个集成模型,然后给出违约概率。  集成模型能提高性能,氪信之前将集成模型应用到大型消费金融场景中。他们之前的风控用到的特征也不多,判断模型的分类性能的 KS值指标也比较一般。在和我们合作后,运用了刚才提到的技术和框架,模型的性能提升还是非常明显的,KS值从0.19提升到0.35。从业务来看,他们的坏账率直接下降了46%。  基于网络的反欺诈应对线上群体欺诈  接下来再说说基于网络的反欺诈。举个虚假申请的例子。  某个人通过篡改个人资料,提出贷款的申请,这个可以通过交叉验证来判断此人的风险等级。  但是在另一个场景,比如有人申请资料时,用的完全是张三的资料,因为张三的风险评级很安全。这种情况下对于金融这风控机构而言,评估是比较困难的。如果没有人工介入,这个人的风险评估都是基于张三的信息来做的。对于这种虚假的申请,若只根据个体的资料去判断,难度是相当大的。但是把他放到社交网络中情况会不同。不同的人共享了相同的属性或者相同的资料,那么我们就会有风险的疑虑。  还有群体欺诈。这主要是说在时间或者空间上的高频率焦点,或是高频率申请。一个简单的例子,我们发现申请资料的数量大得超出历史,然后这些申请资料,比方说手机定位的位置都来自于同一个地区,如果能排除线下获客的可能,这会是很奇怪的一件事情,存在很高的群体欺诈风险。  前面也已经提及了两个社交网络中交叉验证的例子。这里展示的是网络反欺诈流程。  首先收集数据,然后构建网络,基于这样的特征进行社交网络分析,构建反欺诈的规则。当然也会把这样的可视化展示给专家,专家会从可视化的社交网络中发现一些规则,然后利用这些规则去做早期反欺诈预警,包括把这些规则当作一个特征放到反欺诈模型当中。  一方面,社交网络分析可以去做规则、模型,另一方面是它的可视化可以帮助我们融入专家的力量。所以这将构成一个闭环。我们从网络当中学习到了特征、运用的规则,专家会从规则当中获得启发,并提出新的规则,规则反馈给网络,告诉网络什么关系是值得怀疑的,这会是一个良性的循环。  我的分享就到这里,谢谢大家。  雷锋网(公众号:雷锋网)公开课视频实录  雷锋网原创文章,未经授权禁止转载。详情见转载须知。
责任编辑:Robot&RF13015
机会早知道
已有&0&条评论
最近访问股
以下为您的最近访问股
<span class="mh-title"
style="color: #小时点击排行

我要回帖

更多关于 AI在医学领域的应用 的文章

 

随机推荐