机器学习到底在量化金融里哪些方面有应用

当前位置: &
3,203 次阅读 -
问:机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?
机器学习和统计很难隔离,这里排除传统统计方法是想知道现代机器学习方法在量化金融的应用,如有困难请忽略此要求。
尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带谈下一点自己的思考。前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过来,意思反而有了偏差。
如果你去搜索早期的神经网络、SVM的相关论文,会发现不少是做股票预测的。原因很简单,因为似乎我们可以天然地把股票投资的问题看成一个分类问题或者回归问题。回归的角度,我们可以根据之前的历史数据,预测下一个时间点的股价;分类的角度,我们可以根据历史数据,预测下一个时间点股价的正负。看起机器学习的方法可以完美适用了。不过这个结论显然是错的,因为如果真的完美适用,那么机器学习的大牛们怕是已经赚发了以致无心学术。
那么,问题在哪里?我个人的观点,大家没有太多关注机器学习算法能够work的assumption。以分类问题为例,分类算法能够work的assumption是在同一类下,样本数据应该是i.i.d.的。而股票价格数据特点就是,股票return的correlation极低,noise多,而且不stationary。如果明白了这两点,我们再回过头去看这类文章的思路,就发现了问题。绝大部分文章在提取特征方面基本没下什么功夫,就靠股票的return的信息来构成pattern。这样,因为股票return的不稳定、高噪声、低相关性,使得最终做成的pattern没法满足在同一类的情况下i.i.d的条件,因此,这类方法的失败也是必然的。如果你仔细观察,会发现这类文章喜欢使用IBM啊MSFT啊这样的股票做实验,为什么?因为这种顶级公司股票的价格比较稳定,噪声少,相关性强。
不过,近年来已经有一些研究者开始从别的角度思考问题。传统的机器学习方法使用的基本是是股票的日线图和月线图。实际的股票交易大部分是使用limit order book的,一些能够得到数据的研究者,开始思考将机器学习的方法应用于limit order book层次的数据上,典型的论文就是今年新晋的ACM fellow,Michael Kearns在ICML06上发表的Reinforcement learning for optimized trade execution 不同于之前的论文,这篇文章试图为历史数据的每一个时间点构建state,这样可以将增强学习的框架应用其中。这提供了与以前截然不同的思路,不过也并没有从assumption的层面证实文章的方法确实是适应limit order book数据性质的。
在种种的失败之后,开始有一些learning领域的研究者认识到,如果想在股票投资的问题上成功,似乎不能够独立于股票数据固有的性质。于是开始有一些方法,试图利用股票数据既有的性质,来设计online learning的算法。典型的是之前NTU计算机系的PhD, Bin Li在ICML,IJCAI的一系列paper。他的核心其实就是抓住了股票的mean reversion的性质。简单的理解,mean reversion认为股票有它自己的隐含价值,股价在这个值附近波动。他的这一系列paper,其实就是在怎么找这个’mean’方面有些许变化。在时间点t,最开始他认为这个mean就是t-1的股价,后来他又认为这个mean是过去一个窗口时间上的均值。这些paper的思路、算法都很简单容易理解,但是包含的思想是前人不曾有过的,就是利用股票数据的性质设计算法,而不是硬将数据往既有的机器学习算法里套。他现在已经凭借这些paper在武大金融系当上了副教授。
一家基金公司,通常会同时运行好多种strategy进行投资。这就产生了另外一个问题,应该如何给这些strategy动态地分配权值?机器学习领域有很多类似的问题,比如我要做一个分类问题,我有好多个分类器,如何ensemble它们使得它们的表现比较好?关于多种strategy的权值问题,Das在KDD11的paper,Meta optimization and its application to portfolio selection中有详细的讨论。这类方法被称为Meta-Learning Algorithm。
现如今的股票交易已经比几十年前要复杂的多,催生了很多新的交易场所和交易类型。这也给机器学习的专家们很多的机会。典型的例子是Michael Kearns在UAI09年发表的Censored exploration and the dark pool problem。这篇文章是描述暗池交易的,我在另一个回答里也提到过。向某个暗池提交v股的交易量,如果实际成交量小于v,我们知道其容量;而如果实际交易量就是v,则只能知道其实际容量是大于v的。假使在某时刻,我们需要在K个暗池中交易V手股票,我们就需要根据历史数据推断哪些暗池的容量大,在这些暗池里我们就多投入。如果暗池的容量都stochastic的,是不是就是另外一个更复杂的故事了?事实上已经有很多后续的工作来讲述这个故事,不过不是learning界,而来自主流的FE界和OR界。
那么learning界最为红火的deep learning在这个问题上是否有所斩获?前一阵子看新闻说,已经有几个人利用deep learning的技术开了家对冲基金公司,赚了很多钱。那么deep learning问题在交易上的作用可能体现在哪里?我自己没事儿也YY过这个问题,我觉得可能是在统计套利方面。最简单的统计套利方法是看股价的correlation,比如A和B两只股票价差一向稳定在10块钱,某天价差突然跌倒5块钱,统计套利就假设,这个价差会恢复到10块钱,那么我们就可以就此设计交易策略。如果股价价差真的恢复了,那么就可以实现套利。但是显然,这样的关系可能不是那么明显地存在于股票的价格中,可能存在于return中或者variance中,甚至更高复杂度的统计量中。deep learning提供了将原数据投影到另一个特征空间中的方法,而且是高度非线性的。那么,原数据中没有体现出来的correlation,会不会在这种高度非线性的投影空间中体现出来呢?如果有体现,是不是能够设计交易策略实现套利呢?这是我自己的一点点思考。
知乎原帖&&&
注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
相关文章!
不用想啦,马上 发表自已的想法.
做最棒的数据科学社区
扫描二维码,加微信公众号
联系我们:一列列车行驶在北京居庸关长城附近盛开的山桃花海中。
上了年纪的大爷大妈准点前来,早出晚归,堪比上下班。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  去年P2P公司遇冷后,纷纷转型称会用大数据、机器学习等科技手段服务金融,摇身一变成为时髦的Fintech金融科技公司。但实现过程并不简单,让机器代替人去处理数据做判断,在国内金融领域才刚刚起步。
  CreditX氪信是雷锋网(搜索“雷锋网”公众号关注)接触的一家用机器学习做风投的公司,在金融领域拥有不少实验经验和思考。最近氪信创始人朱明杰在朗迪中国峰会发表演讲,谈及了将机器学习应用于金融的难点,以及如何提升模型的可解释性。下文编辑自演讲内容,有删减。
  我做了十多年的机器学习,用机器代替人去处理数据做决策和判断。过去十多年的机器学习,成功的应用都是在互联网上,搜索,广告,推荐,可以说互联网率先达到了数据时代。而到金融创新这个领域,如何实现互联网级别的机器学习和人工智能,大家都刚刚起步,我今天想讲讲我们CreditX在金融领域实践互联网级别机器学习的一些经验和思考。
  金融风控的痛点
  我一直认为,“科技进步是被业务需求逼出来的”。过去我们在互联网行业靠算法和机器,都是被逼的,为什么,因为数据量实在太大了,你想去淘宝搜个手机壳,让阿里的同学人肉从上亿的商品里帮你找出最喜欢最合适的,那根本不可能。传统金融场景里,一笔100万的贷款主要靠风控人员和关系,那是可行的;而到了银行的信用卡中心,积压的申请审核,让审批人员每周加班,都批不完。
  那现在互联网金融要面临更加普惠的场景,比如几百块钱一笔的手机贷,靠铺人力一定是行不通的。所以,这已经不单单是提升运营效率问题,而是必须要把活儿交给机器,让机器来学习人的风控经验,机器人变成风控专家。
  金融领域应用机器学习与人工智能的难点
  第一个问题是数据太少。因为金融数据非常稀疏,而且现在的很多金融产品形式在以前没有发生过,所没有十几年的数据积累。换句话说就是缺少训练数据,这又被称为冷启动,缺数据。另外,金融领域出现坏账情况少则一个月多则数月,数据积累需要等很久,相比之下,互联网搜索领域内可以迅速拿到点击反馈,两者差别很大。所以数据缺失是阻碍机器来学习人类经验的巨大障碍。
  第二个是数据太多。这里指的是数据特征维度多,超过了人的处理能力。传统金融只有十几维度的特征变量,人工调公式即可应对。但现在面临这么多维度的数据,大家也想了很多很好的愿景,讨论很多数据都可以用。但为什么用不上呢?问题在于我们有什么办法可以有一个很强的表达能力将这些很原始的,也可以叫弱变量的数据特征利用起来。将弱特征数据组合起来,与结果联系起来,让人的直观经验可以理解,让风控专家去反馈。
  在金融场景内,不能像互联网机器学习一样是一个黑盒子,一堆数据扔进去,等结果来反馈迭代。 金融场景内,特别强调模型的可解释性,这样才能把人的风控经验和直观感受跟数据表现结果关联起来。在此基础上,我们才能说把人的经验介入到利用数据进行机器学习建模的操作中去。做到特征要能够追溯回去,尤其是金融的反馈结果要等很久,需要人能够快速干预反馈。
  如何解决金融风控冷启动问题
  数据太少
  对于数据太少和产生太慢的问题,冷启动问题是一个非常典型的case。我们在互联网行业经常面临缺少数据的问题,也积累了成熟的经验,就是把人的因素叠加到机器学习过程中去。我们做搜索广告时,会请人标注数据,然后通过标注数据的专家来指导算法工程师调优算法,改进排序结果。而在金融场景里,我们有很多现成的经验以及经验丰富的风控人员,这些专家有很强的风控知识。
  理论上讲,如果有几百个风控专家,不用发工资,我们做手机贷也可以做下去,但实际情况是我们必须靠机器去学习人的风控经验。所以我们通过半监督学习的方法,把业务风控专家和实际的信贷结果在online学习中做一个结合。在这个过程中,风控人员可以实时的介入,不停地根据输出结果做一些调整,然后非常实时地反馈到模型训练的迭代提升的过程当中。
  这就说我们特别重视人的因素。现在大家都在讲人工智能, 人工智能的本质是什么?在我的理解其实就是让机器学习人的经验。以前我们依赖几个经验丰富的风控人员,现在我们可以让机器把人的经验学过来,然后让机器来做一个自动的决策。
  金融的业务结果和样本非常珍贵。比如,我之前在房贷业务上积累了一些样本,然后换到一个新的消费信贷业务上,或者从一个消费信贷业务切换到另一个新的业务。这些珍贵的样本数据不能丢掉,但怎么去用呢?我们可以做到尽可能利用已有的经验和知识,把generic的风险核心模型和domain knowledge分开,再去根据业务的场景信息,以及场景内的先验知识结合起来,在此基础上学习和复用跨领域跨场景的知识,并且可以做到知识积累。
  深度学习技术解决特征工程的难点
  数据太多
  接下来我们来看“数据太多”。我将这个问题分为两个部分来看。
  首先是数据的特征维度很多。我们关心的是如何将大数据和金融风控的问题挂钩起来,这里面其实是需要非常强大的特征加工和表达能力。这是传统的线性回归统计建模方法很难去完成的。我们的办法有很多,这里面包括大家现在热度很高的“深度学习”。深度学习的本质是通过数据特征的处理去学习人处理知识和数据的方式。为了解决数据太多的问题,让人能看透浩瀚的原始数据,在模型的前端,我们尝试了不同的深度特征编码方法,非监督学习的方法对原始数据进行预处理,从而实现特征的降维,将浩瀚的原始数据和最后结果挂上钩。
  模型的可解释性
  其次是模型的可解释性。金融专家特别关心模型的可解释性。这里面有两个意义:
  如果给信贷对象一个打分的结果,如果不能解释,这个很难和申请人去沟通的;
  另外,我们所面临的是一个非常复杂的环境,如果对于风控结果仍然是黑盒进黑盒出的话,风险是很难去把控和估计的。
  如果模型出了问题,造成的风险漏洞是我们不能承受的。在互联网金融业务这么快速成长的背景下,很有可能公司的业务都做不下去。所以,互联网内黑盒进黑盒出的方法就不适用于金融场景,需要有一个可解释的local模型去做到。我们的实践经验是, 利用LIME去捕获结果或者局部结果中的关键变量,然后让风控专家迅速的抓到是哪些特征导致结果的变化。
  氪信取得的效果
  我们把互联网的技术经验,在金融场景内做了一些艰难的尝试,并得到了一些实践经验,包括从最开始的数据获取处理,到人的介入参与,到对复杂模型的干预过程,最后形成我们的practice。
  从效率上说,我们的一个合作伙伴得到了很好的效果。他们做了一个金融信贷场景,部署在氪信的系统和模型上跑,只需要3-4个业务风控兼运营的人员,风控的大部分工作交给机器去做。
  另外从效果上看,我们利用DNN模型做出来一个结果,可以看到结果比传统的LR模型ks值从0.19提升到0.43。数字和结果是我们做模型的人最直接的一个答案,这里面没有什么可以讲概念的。
  大家之前对大数据期望值很高,又屡屡失望,现在其实对数据科技来说是一个很好的时机。因为大家真的需要能够有运用数据的能力,用机器解决金融实际问题,这也是我们这个时代的机会和风口,也是一个新的开始。
  下个月的12、13号,雷锋网将在深圳举办一场盛况空前的人工智能与机器人峰会,届时我们将发布“人工智能&机器人Top25创新企业榜”榜单,为此我们在搜集并确认AI、机器人、自动驾驶、无人机等几个领域的优质项目。如果您的项目是相关领域的,且足够有技术壁垒、足够有成长性,欢迎联系。
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
专注移动互联网领域的科技博客。雷者,万钧之势;锋者,锐利之...
17014文章数
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?
知乎问答问:机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?机器学习和统计很难隔离,这里排除传统统计方法是想知道现代机器学习方法在量化金融的应用,如有困难请忽略此要求。Weicong Liu答:尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带谈下一点自己的思考。前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过来,意思反而有了偏差。如果你去搜索早期的神经网络、SVM的相关论文,会发现不少是做股票预测的。原因很简单,因为似乎我们可以天然地把股票投资的问题看成一个分类问题或者回归问题。回归的角度,我们可以根据之前的历史数据,预测下一个时间点的股价;分类的角度,我们可以根据历史数据,预测下一个时间点股价的正负。看起机器学习的方法可以完美适用了。不过这个结论显然是错的,因为如果真的完美适用,那么机器学习的大牛们怕是已经赚发了以致无心学术。那么,问题在哪里?我个人的观点,大家没有太多关注机器学习算法能够work的assumption。以分类问题为例,分类算法能够work的assumption是在同一类下,样本数据应该是i.i.d.的。而股票价格数据特点就是,股票return的correlation极低,noise多,而且不stationary。如果明白了这两点,我们再回过头去看这类文章的思路,就发现了问题。绝大部分文章在提取特征方面基本没下什么功夫,就靠股票的return的信息来构成pattern。这样,因为股票return的不稳定、高噪声、低相关性,使得最终做成的pattern没法满足在同一类的情况下i.i.d的条件,因此,这类方法的失败也是必然的。如果你仔细观察,会发现这类文章喜欢使用IBM啊MSFT啊这样的股票做实验,为什么?因为这种顶级公司股票的价格比较稳定,噪声少,相关性强。不过,近年来已经有一些研究者开始从别的角度思考问题。传统的机器学习方法使用的基本是是股票的日线图和月线图。实际的股票交易大部分是使用limit order book的,一些能够得到数据的研究者,开始思考将机器学习的方法应用于limit order book层次的数据上,典型的论文就是今年新晋的ACM fellow,Michael Kearns在ICML06上发表的Reinforcement learning for optimized trade execution 不同于之前的论文,这篇文章试图为历史数据的每一个时间点构建state,这样可以将增强学习的框架应用其中。这提供了与以前截然不同的思路,不过也并没有从assumption的层面证实文章的方法确实是适应limit order book数据性质的。在种种的失败之后,开始有一些learning领域的研究者认识到,如果想在股票投资的问题上成功,似乎不能够独立于股票数据固有的性质。于是开始有一些方法,试图利用股票数据既有的性质,来设计online learning的算法。典型的是之前NTU计算机系的PhD, Bin Li在ICML,IJCAI的一系列paper。他的核心其实就是抓住了股票的mean reversion的性质。简单的理解,mean reversion认为股票有它自己的隐含价值,股价在这个值附近波动。他的这一系列paper,其实就是在怎么找这个’mean’方面有些许变化。在时间点t,最开始他认为这个mean就是t-1的股价,后来他又认为这个mean是过去一个窗口时间上的均值。这些paper的思路、算法都很简单容易理解,但是包含的思想是前人不曾有过的,就是利用股票数据的性质设计算法,而不是硬将数据往既有的机器学习算法里套。他现在已经凭借这些paper在武大金融系当上了副教授。一家基金公司,通常会同时运行好多种strategy进行投资。这就产生了另外一个问题,应该如何给这些strategy动态地分配权值?机器学习领域有很多类似的问题,比如我要做一个分类问题,我有好多个分类器,如何ensemble它们使得它们的表现比较好?关于多种strategy的权值问题,Das在KDD11的paper,Meta optimization and its application to portfolio selection中有详细的讨论。这类方法被称为Meta-Learning Algorithm。现如今的股票交易已经比几十年前要复杂的多,催生了很多新的交易场所和交易类型。这也给机器学习的专家们很多的机会。典型的例子是Michael Kearns在UAI09年发表的Censored exploration and the dark pool problem。这篇文章是描述暗池交易的,我在另一个回答里也提到过。向某个暗池提交v股的交易量,如果实际成交量小于v,我们知道其容量;而如果实际交易量就是v,则只能知道其实际容量是大于v的。假使在某时刻,我们需要在K个暗池中交易V手股票,我们就需要根据历史数据推断哪些暗池的容量大,在这些暗池里我们就多投入。如果暗池的容量都stochastic的,是不是就是另外一个更复杂的故事了?事实上已经有很多后续的工作来讲述这个故事,不过不是learning界,而来自主流的FE界和OR界。那么learning界最为红火的deep learning在这个问题上是否有所斩获?前一阵子看新闻说,已经有几个人利用deep learning的技术开了家对冲基金公司,赚了很多钱。那么deep learning问题在交易上的作用可能体现在哪里?我自己没事儿也YY过这个问题,我觉得可能是在统计套利方面。最简单的统计套利方法是看股价的correlation,比如A和B两只股票价差一向稳定在10块钱,某天价差突然跌倒5块钱,统计套利就假设,这个价差会恢复到10块钱,那么我们就可以就此设计交易策略。如果股价价差真的恢复了,那么就可以实现套利。但是显然,这样的关系可能不是那么明显地存在于股票的价格中,可能存在于return中或者variance中,甚至更高复杂度的统计量中。deep learning提供了将原数据投影到另一个特征空间中的方法,而且是高度非线性的。那么,原数据中没有体现出来的correlation,会不会在这种高度非线性的投影空间中体现出来呢?如果有体现,是不是能够设计交易策略实现套利呢?这是我自己的一点点思考。(来源:知乎)赢在起跑线——期权交易实战特训班 史上最超值的期权培训期权名师老交易员手把手授课学习像老交易员一样去分析和操作可以随时回来学习,有专人辅导
TA的最新馆藏李斌博士设计基于机器学习的量化投资策略――新闻动态――武汉大学经济与管理学院
李斌博士设计基于机器学习的量化投资策略
  金融系举办第9期&珞珈金融论坛&
  日下午,由金融系主办的&珞珈金融论坛&第9期在学院B253教室举行,院李斌老师做了题为&基于移动平均线回归的在线投资组合选择策略(Moving Average Reversion for On-Line Portfolio Selection)&的学术报告。
  在报告中,李老师指出,在线投资组合选择是量化投资中的一个核心问题,在金融工程与计算机科学领域引起了广泛的兴趣。实证证据显示,股票的高价和低价是临时的,其更倾向于服从均值回归特性。过去研究表明,现有均值回归策略能够在许多现实的资产集上可以取得很好的实证结果,但它们都做了一个单期均值回归的假设,而这个假设很多时候并不满足,由此导致了其在另外的资产集上的效果一般。为了克服这个局限性,李老师的报告提出了一个多期均值回归,或被称为&移动平均线回归&(MAR),和一个新的在线投资组合选择策略,即&在线移动平均回归&(OLMAR)。OLMAR通过在线机器学习的技术来挖掘MAR的特性。通过在数个资产集上的测试显示,李老师发现OLMAR可以克服现有均值回归策略的缺陷,由此能够得到更好的性能,尤其是在之前回测性能差的数据集上。除了OLMAR优异的实证效果,它的运算速度为线性,回溯测试的速度极快,由此更加支持它在一些高速度领域的可用性,比如高频交易。
  李斌,现任武汉大学经济与管理学院金融系副教授。2006年获华中科技大学计算机学士学位与武汉大学经济学双学位,2013年获南洋理工大学计算金融博士学位,并在南洋理工大学会计系从事博士后研究。主要研究领域为计算金融与量化投资。(通讯员:李斌、张迪)
发布时间:
浏览人数:
查询服务: |
相关链接: |
电话:027-
传真:027-版权所有&2011 武汉大学经济与管理学院
邮箱:emswhu@
邮编:430072Copyright&2011 EMS. Incorporated. All rights reserved
地址:中国 武汉 武汉珞珈山鄂ICP备号

我要回帖

 

随机推荐