在aqf量化金融分析师里哪些方面有应用

MATLAB在量化投资中的应用-2013.09_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
MATLAB在量化投资中的应用-2013.09
&&matlab在量化投资的应用
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩41页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢大数据在量化投资上的应用
“随着大数据技术的进一步发展,可预见会激发更多的金融创新出现,包括金融工程领域,反过来我们也相信,金融创新、特别是金融工程领域的创新,对大数据技术也有更多的要求。”日前,“第六届(2014秋季)中国量化投资国际峰会”在深圳举办。500余位海内外经济学家以及来自国内证券、基金、私募、信托、银行、保险界的专业人士、高校专家学者出席会议,并围绕大数据在金融行业的运用展开了重点讨论。
专家认为,近两年,大数据、云计算以及互联网金融等成为社会热点。这些底层技术以移动互联的用户体验呈现出来,不仅通过互联网产品改变了人们的衣食住行,更改变着金融业本身。
金融大数据产业链正在形成
近几年,大数据与金融的“嫁接”催生了不少金融工程创新。信用卡自动授信是典型的大数据银行金融。而机器人投资是大数据证券金融的代表形式。股票价格波动受各种因素影响,传统的投资方式一般人工收集信息,手动交易,机器人投资则可以建立多因素模型,自动选择股票或寻找交易时机,在适当的风控模型下建立程序化投资云交易模式。
“传统的审批成本是非常高的,需要上门考察写尽调报告。阿里小贷服务了上百万商家,应该说绝大多数是没有上门考察的,阿里掌握了海量的客户交易信息和数据信息,通过大数据进行考察,光这一项就节省了大量成本。”人人聚财创始合伙人兼CEO许建文说。
“证券行业应用大数据才刚刚起步,银行比我们走得快、走在前,现在几乎每个银行都有大数据中心。”中国银河证券股份有限公司网上交易中心主任王锦炎透露,目前证券公司都很重视建设数据中心,“我们本身是服务客户的,如果能收集客户行为、交易习惯,以及投资哪一类股票、投资回报率等基本信息,对其进行分析后,可以有针对性地提供一些资讯信息以及差异化的服务。”
“金融业积累的大数据就是金融大数据,根据银行金融和证券金融本身的不同,这些数据也分成银行金融大数据和证券金融大数据。积累数据过程中,产生了数据采集、存储、使用的相关工作和企业,这样就完成了金融大数据的产业链。”专家认为,这样的产业链正在形成。
在大数据变革金融业的同时,也对金融大数据产业链上的相关企业提出了更多要求。国泰安技术研发中心副总经理杨波认为,对数据公司来说,大数据技术的出现会极大增加数据的来源,也会对传统的数据处理方式形成挑战。“我们公司现在处理数据大部分还靠‘拼人’,今后可能要逐渐从传统人工录入向自动收集转变。”
“大数据技术为金融和金融工程行业带来新机会的同时,本身也面临着挑战。”中国科学院深圳先进技术研究院首席科学家黄哲学指出,在基础研究方面,目前缺少有效的方法论对大数据进行真正的分析,充分发掘其效益。而在应用方面,如何保护用户的隐私是目前面临的最大挑战。
量化投资行业或迎来洗牌
量化投资可以简单地概括为利用数量化统计分析工具构建相应的数据模型,借助计算机科技程序化交易从而实现投资思想和投资理念的一种交易策略。伴随着市场复杂程度日益提升,规模日益庞大,投资品种数量与日俱增,依靠投资经理个人主观判断为主的传统投资面临较大挑战。越来越多的投资人开始关注量化投资,其重要性也逐渐被接受和认可,国内不少基金、券商、私募都已经推出量化投资产品。
大数据技术的发展对量化投资又有什么影响?“从我们的尝试和实践经验来看,把互联网大数据的信息挖掘技术用在对冲基金、数量化投资策略的开发上是可行的。”摩旗投资的董事长刘宏认为,“在量化里面,不光要量化历史的数据,量化认知的东西,还要考虑交易对手或是市场,因为不是你自己一个人玩这个游戏,中国是几千万人来做这个市场,这个几千万怎么相互作用是非常复杂的,不是金融数学、金融工程用固定的模型就可以解决的。”华南理工大学金融系教授杨春鹏介绍,在量化投资领域,目前对投资者情绪的量化是一个热点,“现在很多机构都有自己的量化方法,其中一个趋势是把现在的行为和情绪量化起来放在里面,看看起的作用怎么样。”
杨波认为,根据有效市场的理论,大数据技术的发展会使信息获取成本下降,而且会使获取信息更加全面,使信息获取的成本降低,大家会掌握更多的有效信息,其结果是市场的波动率会下降在他看来,大数据出现之后会抬高对冲基金门槛。“随着大数据技术的发展,你想获取更多的信息必须要投入更多的成本和技术,会提高行业的门槛。更专业、技术力量更强的公司可能会垄断更多的信息,导致行业出现洗牌。”
专家判断,后期量化投资行业中的“80、20”原则更强,也就是20%的基金会管理80%的资产。“中国量化投资刚刚起步,国外少量基金管理大量资金的趋势比较明显。随着大数据技术的出现,我认为这种趋势会加剧。”杨波说。
深圳成立金融大数据研究中心
“我们天天讲大数据,金融市场上应该是数据最丰富的地方。”华南理工大学金融系教授杨春鹏认为,金融大数据的挖掘和应用离不开业界基本经验的支撑,这需要长时间的积累。“过去是把智能机器人、医疗健康、新能源等作为主要的研究方向,现在我们把大数据也作为我们一个重点研究方向。”中科院深圳先进技术研究院院长樊建平说,先进院是产学研相结合的新兴国家研究机构,一直将本地的研究需求作为自己确定研究方向最主要的出发点。
“而深圳是我们国家在金融投资,包括量化投资方面最活跃的城市,我们有没有可能把大数据的技术应用到金融领域、特别是金融工程领域?同时金融又是非常动态、复杂变化的领域,这种特征会给大数据的研究带来非常好的需求牵引和互相促进。”樊建平说。
在本届峰会上,中科院深圳先进技术研究院与深圳市国泰安信息技术有限公司宣布成立中科院深圳先进技术研究院——国泰安金融大数据研究中心。据悉,该研究中心旨在开展有关金融、大数据的研究工作,积极推动有关大数据在金融工程领域应用的系统、产品、工具的研发,推动金融和金融工程大数据学术理论和应用的交流,是一个集金融大数据政策与产业研究、杂志丛书出版、论坛峰会筹办、大数据高端人才培养培训等服务于一体的非盈利性研究机构。
樊建平表示,金融和金融工程大数据领域的人才培养将是该中心的重心工作之一,“先进院目前有硕士、博士、博士后超过800人,希望未来在金融和金融工程大数据研究中心里能培养出一批这个领域里实用的人才。”
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。 上传我的文档
 下载
 收藏
这是一个分类齐全的医学资料库:包括内科;外科;其他临床学科;中医科;基础医学;及辅助科室(影像学、医学检验科)等等
 下载此文档
正在努力加载中...
量化投资方法在金融创新工具中的运用
下载积分:1700
内容提示:量化投资方法在金融创新工具中的运用
文档格式:PDF|
浏览次数:32|
上传日期: 19:56:34|
文档星级:
全文阅读已结束,如果下载本文需要使用
 1700 积分
下载此文档
该用户还上传了这些文档
量化投资方法在金融创新工具中的运用
关注微信公众号机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?-石投金融
下载客户端
三步轻松贷款,贷款利率低
机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?
机器学习和统计很难隔离,这里排除传统统计方法是想知道现代机器学习方法在量化金融的应用,如有困难请忽略此要求。
匿名用户 |
浏览次数:550
常见类似问题
回答共有8条
如有问题,欢迎私信骚扰! -----------------------------------------------------------------------------------------------------------------------一、机器学习和量化投资是怎么“认识”的? 对于此问题的解释,我不会从追溯历史的角度进行描述,而… 显示全部 如有问题,欢迎私信骚扰! -----------------------------------------------------------------------------------------------------------------------一、机器学习和量化投资是怎么“认识”的? 对于此问题的解释,我不会从追溯历史的角度进行描述,而是通过简单的专业名词介绍及两者之间的联系来解释这个问题。首先来讲,机器学习是研究计算机模拟或实现人类的学习行为,获取新的知识或技能来改善自身的性能。其次模式识别是对表征事物或现象的各种形式的信息进行处理和分析,并对事物或现象进行描述、辨认、分类和解释的过程。另外人工神经网络是模范动物神经网络行为特征,并进行分布式信息处理的算法数学模型。最后遗传算法主要通过交叉、变异、选择运算实现生成下一代染色体。 量化投资为什么能够用到上面所说的这些方法,一来大数据近年炒得很火,直到谷歌的阿尔法狗打败世界围棋冠军,更是让机器学习成为大家热捧的对象。二来股市从无常胜将军,价格走势变化无常,海量信息如何有效处理?加上赌徒心理,使得传统投资得以与计算机算法联姻。 ----------------------------------------------------------------------------------------------------------------------- 二、机器学习在量化投资领域怎么应用——举例 (一)模式识别进行短线择时 长期而言,股票的趋势判断难度较大。但对于短期趋势,投资者收集信息及反映信息的方式有助于判断趋势。知情交易者基于其信息优势很可能对当日最后的交易时段对第二日提前布局。挖掘这些信息可以帮助我们进行短线择时判断。 1、如何从价格波动中分解出投资者预期 我们可以采用价格序列相似性聚类。在两个维度进行衡量:水平偏移分量和相似性分量(具体数学公式省略,详情参考丁鹏的《量化投资策略与技术》)。其分解流程如下: 当然A股市场瞬息万变,投资者预期对第二日市场的影响具有时效性,也就是发觉的适合做多的类别不能长久地适应市场,因此需要做到定期更新。 (二)RBF人工神经网络怎样进行股价预测 股票市场是一个复杂的非线性动态系统,而神经网络既具有强大的非线性映射能力来实现复杂的因果关系,还具有许多优良品质如自学习、自适应和容错等特性。这能够应用于大量的历史数据进行聚类和学习来找到某些行为变化的规律。 该方法的大致步骤如下: 首先是进行数据预处理,将股市看做确定性非线性动力系统,那么股价的历史数据和其他信息蕴含着可用于预测未来股价的信息。 之后运用动态的自适应学习算法,能够对股价进行动态输入模式的在线学习。 以下为中国银行2008年8月的14个交易日股价预测,学习样本为之前的2006年7月至9个股票交易日。 由于股票市场的不确定因素太多,比如政策、庄家操控、投资者的情绪等,这造成股价预测难度很大,但是通过径向基函数神经网络进行股票价格预测效果还算不错。 最后想要总结一下。虽然机器学习看似高大上,但是国内第一个依托大数据选股而成立的广发百发大数据精选混合E(001742)业绩并非那么亮眼。下面是晨星公司对该基金的简单业绩评价,与国内一流指数基金业绩还是有些距离的。(数据摘自天天基金网) 金融圈玩钱的手段越来越“高超”,但是并不能成为把散户淘汰的理由。因为散户作为中国股市的“价格决定者”总是领先一步于计算机“价格行为学习者”。如何更好的改善个人的投资业绩,我想大数据说了不算,但是能够发现问题,之后传导到人,怎么改变还是事在人为。 --------------------------------------------------------------------------------------------------------------------- 如有疑问,欢迎私信骚扰!
回答于日 00:00
前一段时间,看了一篇用Hidden Markov Model去预测Older Flow的论文。虽然预测的模型看上去是可以构建一个能work的order flow,但是,却没有一个reasonable的交易策略。算法只是一个工具,对于好的交易策略来说,最重要的还是交易逻辑。 显示全部 前一段时间,看了一篇用Hidden Markov Model去预测Older Flow的论文。虽然预测的模型看上去是可以构建一个能work的order flow,但是,却没有一个reasonable的交易策略。算法只是一个工具,对于好的交易策略来说,最重要的还是交易逻辑。
回答于日 00:00
交易时间先简单回复, 当你们一次次跟随着各种模型的时候,是否怀疑过模型就是错的,当你们满口的阿尔法α 贝塔β 的时候,是否这定义都是错的? 各种时间序列模型和随机模型不停的从残差中提取高阶项,导致出一大堆难解的高阶微分方程 于是有人开始各种ML … 显示全部 交易时间先简单回复, 当你们一次次跟随着各种模型的时候,是否怀疑过模型就是错的,当你们满口的阿尔法α 贝塔β 的时候,是否这定义都是错的?各种时间序列模型和随机模型不停的从残差中提取高阶项,导致出一大堆难解的高阶微分方程于是有人开始各种ML DL时,想寻求一个非线性空间,但你们的初衷就是错的。其实也是过拟合,很简单,你的trainingset含有一些时间上耦合的东西。另外非线性空间上计算难度和数值算法稳定性的问题都需要考虑。另一个问题是模型的参数输入过多结果就越容易混沌。 这些工具只是工具,特定的场合优化资产配置,风控。
回答于日 00:00
我们ML教授曾经说,虽然机器学习研究这么火热,但是在业界90%以上的应用仍然使用的是线性模型,尤其是在Predicative Learning(预测学习)领域。 我见识浅,但是估摸着这句话用在量化交易上也成立。机器学习在量化交易中的应用,仍然是以回归为主,可能还有… 显示全部 我们ML教授曾经说,虽然机器学习研究这么火热,但是在业界90%以上的应用仍然使用的是线性模型,尤其是在Predicative Learning(预测学习)领域。我见识浅,但是估摸着这句话用在量化交易上也成立。机器学习在量化交易中的应用,仍然是以回归为主,可能还有一些决策树,但线性模型是绝对的主力。特别是主要在市场数据里面找信号的交易者,对于他们来说线性模型的Model Capacity很少有不够用的时候,找到一个高质量的信号比换一个更复杂的模型更有利可图。更何况市场数据的信噪比极低,稍微复杂一点的模型就有 Overfitting 的风险。那是不是说其他机器学习方法在交易里面就没有应用了呢?也不是。对于数据源不仅局限于市场数据,而是什么都挖(包括但不限于Twitter,互联网流量,天气,各种新闻媒体等等)的矿工们来讲,线性模型显然就不够用了。比如做 Beh**ioral Strategy 的,做 Event Driven Strategy的,做 Index Arbitrage 的,由于无法确定数据之间是怎样的关系,就会把ML里一些复杂的甚至比较新的研究成果往上招呼。有些时候交易者们还需要自己做NLP(自然语言处理)和CV/PR(模式识别),这就更是机器学习的重镇了。总体来讲,现在高频交易(做市)还是线性模型称王,统计套利要更丰富一些,而更一般(中低频)的算法/量化交易所使用的机器学习则会更加多样化。
Jianchi Chen
回答于日 00:00
尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带谈下一点自己的思考。前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过来,意思反而有了偏差。 如果你去搜索早期的神经网络、SVM的相关论文,会发现不少是做股票预测的。原因很简单… 显示全部 尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带谈下一点自己的思考。前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过来,意思反而有了偏差。 如果你去搜索早期的神经网络、SVM的相关论文,会发现不少是做股票预测的。原因很简单,因为似乎我们可以天然地把股票投资的问题看成一个分类问题或者回归问题。回归的角度,我们可以根据之前的历史数据,预测下一个时间点的股价;分类的角度,我们可以根据历史数据,预测下一个时间点股价的正负。看起机器学习的方法可以完美适用了。不过这个结论显然是错的,因为如果真的完美适用,那么机器学习的大牛们怕是已经赚发了以致无心学术。 那么,问题在哪里?我个人的观点,大家没有太多关注机器学习算法能够奏效的假设(assumption)。以分类问题为例,分类算法能够奏效的假设是在同一类下,样本数据应该是**同分布(i.i.d).的。而股票价格数据特点就是,股票收益率曲线的自相关性(autocorrelation)极低,噪声大,而且不稳定(stationary)。如果明白了这两点,我们再回过头去看这类文章的思路,就发现了问题。绝大部分文章在提取特征方面基本没下什么功夫,就靠股票的return的信息来构成pattern。这样,因为股票收益曲线的不稳定、高噪声、低相关性,使得最终做成的模式(pattern)没法满足在同一类的情况下i.i.d的条件,因此,这类方法的失败也是必然的。如果你仔细观察,会发现这类文章喜欢使用IBM啊MSFT啊这样的股票做实验,为什么?因为这种顶级公司股票的价格比较稳定,噪声少,相关性强。 不过,近年来已经有一些研究者开始从别的角度思考问题。传统的机器学习方法使用的基本是是股票的日线图和月线图。实际的股票交易大部分是使用限价订单(limit order book)的,一些能够得到数据的研究者,开始思考将机器学习的方法应用于限价订单层次的数据上,典型的论文就是今年新晋的ACM fellow,Michael Kearns在ICML06上发表的Reinforcement learning for optimized trade execution 不同于之前的论文,这篇文章试图为历史数据的每一个时间点构建状态(state),这样可以将增强学习的框架应用其中。这提供了与以前截然不同的思路,不过也并没有从假设的层面证实文章的方法确实是适应限价订单数据性质的。 在种种的失败之后,开始有一些机器学习领域的研究者认识到,如果想在股票投资的问题上成功,似乎不能够**于股票数据固有的性质。于是开始有一些方法,试图利用股票数据既有的性质,来设计在线学习(online learning)的算法。典型的是之前NTU计算机系的PhD, Bin Li在ICML,IJCAI的一系列论文。他的核心其实就是抓住了股票的均值回归(mean reversion)的性质。简单的理解,均值回归认为股票有它自己的隐含价值,股价在这个值附近波动。他的这一系列论文,其实就是在怎么找这个'均值'方面有些许变化。在时间点t,最开始他认为这个均值就是t-1的股价,后来他又认为这个均值是过去一个窗口时间上的均值。这些论文的思路、算法都很简单容易理解,但是包含的思想是前人不曾有过的,就是利用股票数据的性质设计算法,而不是硬将数据往既有的机器学习算法里套。他现在已经凭借这些论文在武大金融系当上了副教授。一家基金公司,通常会同时运行好多种策略进行投资。这就产生了另外一个问题,应该如何给这些策略动态地分配权值?机器学习领域有很多类似的问题,比如我要做一个分类问题,我有好多个分类器,如何集成(ensemble)它们使得它们的表现比较好?关于多种策略的权值问题,Das在KDD11的paper,Meta optimization and its application to portfolio selection中有详细的讨论。这类方法被称为Meta-Learning Algorithm。 现如今的股票交易已经比几十年前要复杂的多,催生了很多新的交易场所和交易类型。这也给机器学习的专家们很多的机会。典型的例子是Michael Kearns在UAI09年发表的Censored exploration and the dark pool problem。这篇文章是描述暗池交易的,我在另一个回答里也提到过。向某个暗池提交v股的交易量,如果实际成交量小于v,我们知道其容量;而如果实际交易量就是v,则只能知道其实际容量是大于v的。假使在某时刻,我们需要在K个暗池中交易V手股票,我们就需要根据历史数据推断哪些暗池的容量大,在这些暗池里我们就多投入。如果暗池的容量都stochastic的,是不是就是另外一个更复杂的故事了?事实上已经有很多后续的工作来讲述这个故事,不过不是机器学习界,而来自主流的金融工程界和运筹学界。 那么机器学习界最为红火的深度学习(deep learning)在这个问题上是否有所斩获?前一阵子看新闻说,已经有几个人利用DL的技术开了家对冲基金公司,赚了很多钱。那么DL问题在交易上的作用可能体现在哪里?我自己没事儿也YY过这个问题,我觉得可能是在统计套利方面。最简单的统计套利方法是看股价的相关性,比如A和B两只股票价差一向稳定在10块钱,某天价差突然跌倒5块钱,统计套利就假设,这个价差会恢复到10块钱,那么我们就可以就此设计交易策略。如果股价价差真的恢复了,那么就可以实现套利。但是显然,这样的关系可能不是那么明显地存在于股票的价格中,可能存在于收益曲线中或者方差曲线中,甚至更高复杂度的统计量中。DL提供了将原数据投影到另一个特征空间中的方法,而且是高度非线性的。那么,原数据中没有体现出来的相关性,会不会在这种高度非线性的投影空间中体现出来呢?如果有体现,是不是能够设计交易策略实现套利呢?这是我自己的一点点思考。
Weicong Liu
回答于日 00:00
监督学习很不好用, 蒙了一堆数据却无从得知有没过拟合, 也不知道有没有变数是噪声, 反而是让准确度降低的, 交叉验证之流在这问题上没啥用处 非监督学习的结果丢入线性模型, 能避免过拟合又兼顾非线性特徵, 又能跟经典统计产生联系, 好用 另外要区分下平常的… 显示全部 监督学习很不好用, 蒙了一堆数据却无从得知有没过拟合, 也不知道有没有变数是噪声, 反而是让准确度降低的, 交叉验证之流在这问题上没啥用处非监督学习的结果丢入线性模型, 能避免过拟合又兼顾非线性特徵, 又能跟经典统计产生联系, 好用另外要区分下平常的时段跟特别的时间点, 市场不是任何时间点都可以预测的, 但同时又有些特别时间点或事件点, 会让可预测性大增平常的市场像是在赌博一样, 难说有啥规律
回答于日 00:00
看了上面几位盆友的回答及讨论觉得受益匪浅,同时我也注意到该问题关注者里面有许多让我仰视的前辈,这里也斗胆放上一个初学者的单纯思考与实践结果供大家一起探(yu)讨(le)。 前面几位朋友提到机器学习在金融市场的预测应用,这确实是件让人兴奋的事情… 显示全部 看了上面几位盆友的回答及讨论觉得受益匪浅,同时我也注意到该问题关注者里面有许多让我仰视的前辈,这里也斗胆放上一个初学者的单纯思考与实践结果供大家一起探(yu)讨(le)。前面几位朋友提到机器学习在金融市场的预测应用,这确实是件让人兴奋的事情。是的,情理上,使用所谓的一些技术手段就想预测市场,毕竟naive,但因为这种情理上甚至逻辑上的“不可能”就放弃自己尝试,那我也不甘心啊。于是决定亲自踩坑,赤膊上阵,结果就当一个血淋淋的栗子吧,正好目前的答案还没人举一个活生生的具体实例。来,我来举个:我的研究对象是HS300历史数据,我关心它的涨跌。我的目标是亲自实现验证体会机器学习做市场预测这一构建过程,顺带瞧瞧这玩意儿是不是文献或是研报中“传说”的那么神或是然无卵。首先我们得熟悉我们的数据,获取过去十年CSI300指数原始数据(代码开发环境Ipython Notebook):df = rd.get_price('CSI300.INDX', '', '').reset_index()[['OpeningPx', 'ClosingPx']]有了开收盘价格后,我们把原始数据这般那般后,有了下面三张图:图一:图二:图三: 图一表示过去近2500个交易日,当天是涨是跌天数的统计。 图二表示每日收益率随时间序列的变化。 图三表示涨跌天数的频率分布。有兴趣的盆友可以仔细看看图,里面有很有趣的东西。熟悉了数据之后就可以正式开工了,我主要从以下三点来做些尝试:1.机器学习估计器的选择,即我们使用何种方法进行我们的预测。2.训练集样本数量的选择,即我们每次预测结果之前使用多少条训练集合的样本。3.涨跌时间窗口的选择,即我们每个样本中的特征个数,我们训练集每个单元包含连续多少个交易日的涨跌。下面具体说:1.根据手头数据的情况及scikit-learn: machine learning in Python中下图所示的引导:我们选择比较RandomForestClassifier、LinearSVC、KNeighborsClassifier,结果如下:可以看出,KNeighborsClassifier表现明显逊于RandomForestClassifier、LinearSVC,它的波动较大且胜率与另外两者比也不理想。这结果与JMLR的一篇神奇文章有点类似: [Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?](http://jmlr.org/papers/v15/delgado14a.html),文章测试了179种分类模型在UCI所有的121个数据上的性能,发现Random Forests 和 SVM 性能最好。2.训练集样本数制约了预测结果的准确性,理想情况下我希望每次做预测的样本数越多越好,但你知道理想很骨感的,训练集样本数一方面受实际总数据量限制,另外,计算资源与时间也是制约因素。我们最终要形成某种程度的妥协,即保证相当程度预测效果下选择最小的训练集样本数量。于是我们计算样本数从1~300范围内的胜率,结果如下:可以看出,控制其它条件不变,随着样本数增多,胜率逐步提高结果更为稳定并且最后维持在0.52~0.53左右波动,为了节约计算资源及考虑到历史数据总量,我们可以选择100个作为训练样本数。3.涨跌时间窗口选择,它实际上反映了交易日历史的涨跌对下一个交易日的影响,这个动量是否客观存在,我认为从交易心理上说还是有一定依据的,比如作为交易者如果过去一连10个交易日全部飘红,对于后一天的走势我更愿意谨慎看空。当然,这是个极端的臆想,归根结底的表现怎么样,还是要看数据给的答案:这样的结果让人抓狂,有点看乱码的感觉。后来我改变了每次回测的起点发现,基本每次结果都差不多,一个共同点是:每次曲线的开端都会存在倒塌式下滑,而后稳定震荡于0.5扔硬币的概率左右。也就是说,动量是存在的,只不过很小(结合前面两节的试验结果其期望处于0.53这个位置),且时间窗口很短,超出这个时间窗口,预测问题就转化为扔硬币问题。---------------------------------------上面就是我对机器学习在金融市场的预测应用做的一个小试验,综合三张图的结果来看,其实概率还能勉强说比纯抛硬币好那么丢丢(低于0.5的情况并不多见,调试程序的时候发现0.53是个神奇的数字),但这毕竟是我快速自己实现的一个小Demo,可以想像,如果有更优秀的算法,更丰富的数据,更合理的特征选择,意想不到的结果也会是情理之中。经过自己的尝试后我想机器学习在金融市场的预测应用既不会那么神,也不能说它无卵用,我相信圣杯的存在,在某一你未发现的细节之中。最后丢下包含讨论内容细节的链接,包含整个实现过程的Python代码。希望有前辈更多的指点,我会再继续学习下去。Ipython Notebook Research Alpha下机器学习一瞥,关于跌跌涨涨的思考
回答于日 00:00
个人认为ml是各种工具里面最好用也最实用的工具,没有之一。我自己原本是交易员转型quant在撸ml,所以下面的探讨充满很多个人的偏见和幼稚的想法,各位大牛请轻轻地扔砖; 开篇先讲几个选择上的问题: 1. 非监督学习VS监督学习:因为本身可以用t+1的returns… 显示全部 个人认为ml是各种工具里面最好用也最实用的工具,没有之一。我自己原本是交易员转型quant在撸ml,所以下面的探讨充满很多个人的偏见和幼稚的想法,各位大牛请轻轻地扔砖;开篇先讲几个选择上的问题:1. 非监督学习VS监督学习:因为本身可以用t+1的returns矩阵来完成类似于分类标记的工作,所以我倾向于认为对于我们来说,监督性学习绝对应该是首选,而非监督性学习是耍流氓;2. 分类VS回归:如果是预测单纯的方向,那就是分类问题,如果是预测returns或者相对涨跌的幅度,那就是回归问题;3. 简单VS复杂:奥卡姆剃刀原理决基本适用,越复杂的模型假设条件越多,参数越多,overfitting的风险也就越大;4. 线性VS非线性:交易的世界里面,以量价类因子为例,线性因子都相对很好找。而真实的交易环境里,线性因子的比例妥妥低于10%。这个和奥卡姆剃刀即矛盾也不矛盾,矛盾是指非线性因子肯定不能用线性模型来描述,不矛盾是指在非线性模型这个集内部,奥卡姆剃刀依然适用;下面简单介绍下机器学习在quant世界里的几个应用层次问题,按难度依次递进。首先,最简单的当然是对因子和数据的预处理了,如何normalize,如何/什么时候winsorize,如何/什么时候threshold,如何做bootstrapping,如何做cross_validation。这个坑不大也不小,没搞对后面都是白瞎;其次,那就到了如何调参了。这个应用范围就很广了,对quant来说,主要包括两个方面的应用,一个是为了最大化提取不管是根据行业经验人为提取特征或机器选出来的特征的信息而撸参,一个是在搞模型时根据各种实际情况和假设条件灵活而优雅的撸参,说白了就是选一个不是那么深的坑跳进去。总之是涉及到参数的选择问题都得撸上一发。正所谓撸前淫如魔,撸后圣如佛;再次,就涉及到如何选择模型的问题了,根据本人实地撸的经验和各种YY来说,以下几个撸法很适合quant行业,OLS,lasso,group lasso,ridge,elastic net,nnls,svm,svr,markov,hmm,gbdt,neural network,generic algorithm, decision tree, random forest,PCA,DL。貌似都写进来了,哈哈。其实真的上面的东西都有用,关键是如何根据实际情况选择最合适的撸法,很大程度上决定了你后面的成功率。而最最最关键的问题又在于不去试试,你又压根不知道哪种最合适,YY是没用的,不去里面试试你永远不知道深浅;再再次,当然就涉及到因子组合的问题了,这里面分为2个,1是降维,2是分配weight,这个我就不说太细了;最后,当然就是深度神经网络和DL了,这是理想中的彼岸花。确定好目标,自动寻找筛选组合特征一气呵成,听起来很好,实际在交易中确实不太现实。但是嘛,你要知道,人,理想总是要有的,万一实现了呢?最后贴几个ml做的cta策略的图,镇楼:1. 全样本训练绩效2. 肯定知道你们会说全样本训练得到的绩效有卵用,所以上个交叉验证图3. 还是知道你们会说交叉验证也没有卵用的,于是上某小段实盘绩效4.最后还是知道你们还是会说历史业绩有个卵用我又不知道未来还会怎样,所以请各位关注我们明汯未来绩效,爱信不信。国内CTA领域的头把交椅问题,we r not just say say。最后再打个招聘广告,有实力的大牛,明汯随时为你敞开大门。
回答于日 00:00
对以上回答还不满意?您可以想我们的的专家咨询您的问题
*此回答内容仅代表网友个人观点供用户参考及研究用途,不构成任何投资理财建议
贷款相关计算器
大家都在问
热门银行贷款利率?

我要回帖

更多关于 aqf量化金融分析师 的文章

 

随机推荐