如何利用网络文本数据分析进行金融量化投资专硕

恒大 | 冬奥会 | 炒股 | 美股 | 基金 | 穿越 | 黄金投资 | 摩纳哥 | 首次公开募股（IPO） | 外汇交易 | 动漫 | 智利 | 股价 | 视频会议 | 毕业论文 | 东京 | 服饰搭配 | 海淘 | 金融数学 | 赚钱 | 创业团队 | 量化交易 | 盈利模式 | 重大疾病保险 | 足球 | 文案 | 易纲 | 企业管理 | 别墅 | 代理 | 户型 | 八字算命 | 写字楼 | 平面设计 | 赎回 | 在线教育 | 阿里云os | 苏州市 | 交易平台 | 书籍推荐 | 基金定投 | 睡眠 | 燕窝 | 对联 | 韭菜 | 人体 | 白酒 | 人口 | 中医 | 江苏银行 | 二胎 | 咖啡馆 | 中药 | 外汇投资 | 儿科 | 投资银行 | 生意 | 塞浦路斯 | 工资 | 融资 | 广告人 | 商业模式 | 艺术 | 会计学习 | 老挝 | 超市 | 股市 | 网络推广 | 澳大利亚 | 破产 | Python | 失业保险 | 芯片（集成电路） | 汉语 | 肺炎 | 企业邮箱 | 福建省 | 程序员 | 化工 | 热水器 | 非法集资 | 编程 | 银行业务 | 故事 | 债券 | 香港理工大学 | 私募股权（pe） | 数据分析 | 电影 | 负债 | 试管婴儿 | 银行工作 | 能源期货 | 上海租房 | 嘉兴市 | 房地产开发商 | 创业想法 | 日本动漫 | 图片 | 港股 | 石家庄市 | 饮酒 | 医生 | 公司法 | 音响设备 | 金融学 | 图书 | 互联网广告 | 智能电视 | 原油投资 | 饮食 | 智能仪器 | 名言 | 新能源汽车 | 公益活动 | 结构工程 | 电源 | 礼节礼仪 | 办公家具 | 电路 | 微信朋友圈 | 辞退 | 汕尾市 | 民间借贷 | 皮肤 | 离职 | 代购 | 收藏 | 国家开发银行 | 歌词 | 团队管理 | 纪录片 | 澳门 | 电视节目 | 北京地铁 | 星座 | 车辆 | 车祸 | 中学 | 包装设计 | 老师 | 饮料 | 陈卓林 | 学习 | 背景音乐（bgm） | 营销策划 | 民国 | 教育培训 | 头屯河区 | 植物辨识 | 高考志愿 | 人生 | 马云（人物） | 缅甸 | 驾驶 | 今日头条 | 糕点 | 感冒 | 网站运营 | 品牌营销 | 面包车 | 创业股份分配 | 祛痘 | 服装品牌 | 变相传销 | 世界杯 | 巧克力 | 南航 | 元氏县 | 婆媳关系 | 浙江核新同花顺网络信息服务有限公司 | 大学生兼职 | 机动车驾驶证考试 | 股票配资 | 汉服 | 婚礼 | 网络营销 | 焦虑 | logo设计 | 自建房 | 活动策划 | 作文 | 电梯事故 | 整容 | 机器人 | 石油 | 永修县 | 中国电信 | 专利申请 | 手办 | 国际贸易 | 天使投资 | 宁波 | 森美 | 微店 | 沥青 | 珠宝行业 | 期权 | 猎头 | 百度地图 |

你的位置：网站首页 >> 频道首页 >>金融 >>如何利用网络文本数据分析进行金融量化投资专硕

如何利用网络文本数据分析进行金融量化投资专硕

来源：蜘蛛抓取(WebSpider) 时间：2016-12-17 22:55 标签：金融工程与量化投资

后使用快捷导航没有帐号？
查看: 92|回复: 2
新手上路, 积分 38, 距离下一级还需 12 积分
论坛徽章:0
有个朋友是搞金融的，一直想做这方面的，经常听他说，感觉量化投资一直很神秘、很专业，而且有非常高的门槛。以请各位大神说一下量化投资到底有啥优势？适不适合普通人参与？中国的投资量化，真的有明显的效果吗，收益如何？
注册会员, 积分 66, 距离下一级还需 134 积分
论坛徽章:2
同关注，友情帮顶，哈哈哈
新手上路, 积分 9, 距离下一级还需 41 积分
论坛徽章:0
有不少做的很好的，不过就是进入门槛的问题吧【金融量化】专业:如何利用互联网文本语义分析进行金融量化投资?_互联网金融_传送门
【金融量化】专业：如何利用互联网文本语义分析进行金融量化投资？
1. 金融文本挖掘背景介绍文本挖掘作为数据挖掘的一个分支，挖掘对象通常是非结构化的文本数据，常见的文本挖掘对象包括网页中的论坛、微博、新闻等。文本挖掘是目前金融量化研究的一个非常热门的领域，其主要原因有以下三点：关注对冲量化与金融工程行业的读者，如果想加入“对冲量化与金融工程”专业讨论群，请即回复后台“金融工程”，我们审核通过后将尽快将您安排加入到相应的微群讨论组中。一是对传统数值型数据的研究已经相对成熟了，而对文本数据的研究处于起步状态，在全新的数据源寻找超额收益相对容易。二是网络文本数据更直接的反应投资者的投资意向。比如说，投资者 A在某论坛中发表言论提及某概念，那么表示他近期特别关注该概念的投资机会；再比如说，当投资者 B 想参与到某个主题投资中，那么他应该会买入那些在日常新闻中阅读到的和这些概念相关的股票。当我们以群体的方式去研究这些文本数据，便可以获取额外的信息。三是目前网络所留存的文本数据在数量以及时间上都可以满足我们去构建成熟的量化投资模型。量化投资模型的稳定性在很大程度上取决于样本的数量，而随着近年来互联网技术的普及，网络中留存的文本数据也呈几何式增长，且普及时间也基本在 5 年以上，因此这些数据满足构建量化模型的基本要求。在目前的文本数据研究领域，大家主要集中在对点数据的定性研究上，而对文本数据在时间序列上的定量分析较少。这主要有以下两个方面原因：一是文本数据是以非结构化的形式存储，且历史数据规模较大，这是传统统计分析难以处理的。二是文本数据获取较难，需要长时间的积累，如果早期没有进行积累的话，短期内很难获取足够长时间的数据进行时间序列分析。2. 在众人恐惧时贪婪，在众人贪婪时恐惧所有投资者似乎都认可这样的常识：在众人恐惧时贪婪，在众人贪婪时恐惧。然而要验证这个逻辑似乎是不容易的，最主要的原因就是对情绪的刻画没有一个标准模式，有人用市场波动率指标，也有人用换手率指标。然而通过文本挖掘，我们给出了一个更直观的方法：如果说一个投资者在股票论坛上发的帖子反应了他对当前股市的情绪，那么所有论坛的帖子反应了整个投资者群体对当前股市的情绪，基于这样的想法，我们按天去收集股票论坛中所有的发贴，并对这些帖子进行情感分析、统计分析，得到一个可量化的、反映投资者群体情绪的指标。+前文中提到的“情感分析”，可以理解为一个黑盒，这个黑盒的输入端为一段文字，输出端为一个数值，这个数值反映了这句话的情感。若数值为正，则表示这段文字是乐观的；若数值为负，则表示这段文字是悲观的。在常规的情感分析算法中，监督学习仍然是主流，主要包括一些常规的分类算法，如贝叶斯，Kmean，SVM 等；另外还有一些基于规则的方法，当然考虑到金融词汇的特殊性，还需要进行一些特别的处理。由于中文词语博大精深，我们的测试结果显示：情感分析的正确率仅在85%左右，因此情感分析仅针对较大样本下的统计才有意义。运用该情绪指标，我们便可以构建贪婪恐惧的择时模型。关于具体择时模型构建的信息，请参考我们后续的报告。3. 眼球经济与主题投资眼球经济是指依靠吸引公众注意力来获取收益的一种经济活动，在某种程度上，主题投资也是一样的，它通过不停的吸引更多投资者的注意力来维持行情。如果能够将主题投资吸引到的投资者注意力进行量化，我们在研究主题投资时便能获取更丰富的额外信息。因此，我们定义了主题热度指标，该指标反应了某个主题所受到的投资者关注量。具体的操作方法是：我们统计每日论坛中这些主题词出现的频率，然后计算其 10日移动平均值，得到主题热度指标。+图 2 所示为“特斯拉”的主题热度以及与其有较大相关性的比亚迪的走势。从中我们可以看出主题热度与主题相关股走势呈正相关关系。这也验证了主题投资的特点：主题可以通过不停的吸引更多投资者注意力来维持行情。图 3 中，传媒主题热度以及传媒指数的走势也高度相关。然而经过我们的统计发现，几乎所有的主题热度与相关个股走势均趋于同步性。仅仅依据主题热度这样一个同步指标，我们很难对主题做出择时的判断，因为在某种程度上基于主题热度投资和基于股价本身投资是一样的。对于主题热度，我们更多的是从事件投资、突发新闻、主题炒作后相关股票超涨超跌的现象入手进行分析。具体分析大家可以参考我们后续的专题报告。4. 在冷门股中寻找投资机会格雷厄姆认为“冷门股中的投资机会更多"。他的理由是，这些冷门股由数量化专题报告于缺乏市场的关注，价格远远滞后于其统计表现，但是一旦该股票受到关注，结果可能完全相反，公司的业绩将最大限度地反映到股票价格上。同时，《彼得〃林奇的成功投资》中也提到：“如果说有一种股票我避而不买的话，它一定是最热门行业中最热门的股票，这种股票受到大家最广泛的关注，投资者上下班途中在汽车上或在火车上都会听到人们谈论这种股票，一般人往往禁不住这种强大的社会压力就买入了这种股票。”基于上述理论，我们来探索 A 股中是否存在这样的冷门股、热门股效应。冷门股是指那些较少为人问津、很少被投资者关注并且公司名称少有耳闻的股票。这些股票的一个重要特征是它所对应的网络论坛不活跃，因此网络论坛的活跃度能够直观的反映股票的冷热门程度。具体的操作方法是：我们统计每个股票所属的子论坛下每日新发贴的数量，我们认为那些新发帖量较大的股票属于相对热门的股票，而那些新发帖量较小的股票属于相对冷门的股票。我们仅按照发帖量的数据将所有股票划分为5 组，组 1 是所有股票中发帖量最低的20%，组 5 为所有股票中发帖量最高的 20%，组 2,3,4 为依次递增，然后我们按月进行调仓，每组内等权配置，得到 5 组从 2008 年 6 月至今的各组累积收益率如下：+从图 4 中，我们看出基于论坛中的发帖量数据具有很好的区分度以及单调性；Q1，也就是发帖量最小的 20%的股票组合，具有非常稳定的超额收益；Q5，也就发帖量最大的 20%的股票组合，稳定的跑输基准。这就是说明冷门股以及热门股效应在 A 股中也同样是存在的。+在中证 800 指数、中证 500 指数中，该因子也同样有效。即使跟一些同性质的因子相比，它也有一定的优势。比如分析师覆盖家数因子，也能在一定程度上反映股票的冷热程度，但是它的数据量较少，一方面会导致不是所有股票均有因子值，另一方面因子本身的小幅波动对结果影响较大。我们推崇于这类因子的主要原因在于，首先这些数据基于一个全新的数据源，在一定程度上它所提供的超额收益是之前的方法所不能及的；其次这类因子的构造具有一定的复杂性，提高了研究门槛，因此其超额收益具有较强的持续性。关于该因子详细的回测报告，请关注后期的专题报告。5. 岁岁年年人不同我们经常会面临这样的问题：当我们想去参与某个主题的投资时，应该去买什么股票？一种困扰可能是这个主题太新了，根本不知道什么股票属于这一主题；另一种困扰可能是属于这个主题的股票太多了, 而且各个相关股票也在不停的冷热交替中，根本不清楚最近哪些股票和这些主题是最相关的。基于股票论坛中的大量文本数据，我们给出了解决方案。一直以来我们都认可这样的常识：当一个主题和一些股票同时出现在一个帖子或者一篇新闻中，那么这些股票在大概率下是和这个主题相关的。于是我们在成千上万的包含该主题的帖子或者新闻中去计算所有股票与该主题的文本上的相关关系，确定阀值，挑选出与该主题相关的个股。在计算所有股票与主题的相关关系时，我们借用了文本挖掘中常用的TF-IDF 算法。TF-IDF 算法是一种统计方法，主要用于评估一个字词对于一个语料库中的一份文件的重要程度。字词的重要性随着它在该文件中出现的次数（TF）正比增加，但同时会随着它在总的语料库中出现的频率(IDF)反比下降。具体而言，当我们想获取环保最新的相关个股，分数量化专题报告以下步骤：1）获取最近一段时间内所有含有环保词组的文本；2）统计该文本中个股票出现次数，得到每个股票的 TF 值；3）根据个股票在总文本中出现的次数计算 IDF 值；4）计算每只股票的TF-IDF 值，根据设定好的阀值，得到环保相关个股。这里之所以选用 TF-IDF 算法，一方面因为它能够量化股票仅和该主题间的相关性；另一方面通过 IDF 权重的调整，可以筛去那些过热的股票。+还有一个需要特别注意的细节：到底应该选用多久一段时间内的文本进行计算？我们的研究结果显示，如果选取最近 3 个月至 6 个月的文本数据，则挑选出的相关个股基本偏向一些中规中矩、与主题确定相关的股票；如果选取较短时间内的文本数据，则挑选出的会是一些新近才与主题产生联系、相关性不确定的个股，且这些股票的波动性也非常大。综上所述，我们认为标的挖掘有以下几个用途：1）新主题出现时，迅速地定位出和这些主题相关的个股；2）对旧主题，能够量化主题和个股之间的相关性，在主题投资时对个股进行精选；3) 实时维护一个与主题相关性最大个股的组合。6. 年年岁岁花相似本节主要试图阐明这样一个道理：任何一桩能够引起投资者关注的事件必然会带来超额收益，这部分超额收益来源于投资者关注的溢价。如果这个事件的发生具有周期性，则我们可以基于其过去的表现来确定下次该事件来临时的操作策略，从而获取收益。这里所指的事件定义非常广泛，只要是能够引起投资者关注的，并且是周期性发生的，均可以称为事件。以“中国国际机器人展览会”为例，该展会是目前国内水平最高、规模最大、专业化程度最高的机器人专业展，目前已经举办了 3 届。2012 年举办的时间为 7 月 3 日，2013 年举办时间为 7 月 2 日，2014 年举办时间为 7 月 9 日。首先我们仿照主题热度的指标，在论坛的文本数据中去搜寻该博览会被投资者所关注的热度指标，如图 7。从图 7 中可以看出，在该展览会召开前，已经陆续有投资者在网络论坛提到该展览会，而且大量的提及时间点集中于召开前一个月。这说明该事件是能够吸引大量投资者关注的，而且投资者的关注是在展览会召开前一个月逐渐增多。接下来我们分析三届会议召开前 20 个交易日到召开后 20 个交易日内，机器人主题指数相对于沪深 300 的超额收益的累积情况如图 8 所示。+从图 8 中可以看出，每次在该展览会前 20 个交易日到展览会召开当日均有一定的超额收益，在 2013 年、2014 年的时候有近10%的超额收益，2012 年的时候有 6%左右的超额收益，并且这些超额收益在展览会召开后慢慢消减至 0（2013 年因为其他的利好而导致了一定的偏差）。那么基于这个数据，在 2015 年 7 月 8 日该展览会再次召开之前 20 个交易日，我们可以考虑投资这样一个事件。当然我们也可以根据上一节中介绍的主题相关个股标的挖掘法，来精选机器人主题的个股。上述例子也阐述了立足于文本数据构造泛事件投资的基本框架，即：1）确定该事件能否引起投资者关注以及确定具体的关注时段；2）探索事件发生的历史规律，如影响个股、收益变化等；3）基于历史规律，确认事件再次来临时的操作策略。作者：笨笨老猫==推荐优秀公众号==【互联网金融中心ID:jinrongx】分清互联网金融行业迷雾，对新金融（互联网金融）和传统金融两类的企业、机构、产品等以专业剖析。给粉丝造福利，同时服务优质企业招聘人才、资源对接，对普惠金融起到助力作用！【P2P网贷观察ID：wangdaiguancha】为网贷行业提供研究与分析，提高行业的透明度，为投资人提供靠谱的平台。==无敌分割线==微信名:互联网金融微信ID:iefinance网站:未央网纸媒：《互联网金融观察》如果你不想被社会淘汰请关注。对互联网金融模式（包括比特币-虚拟货币、众筹模式、p2p、互联网或移动支付、互联网银行、电商小贷、金融服务）进行分析。新型的金融服务更接地气，欢迎关注。免责声明：转载上述内容，对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。WeMedia（自媒体联盟）成员，其联盟关注人群超千万级
觉得不错，分享给更多人看到
互联网金融微信二维码
分享这篇文章
1月7日 16:29
互联网金融最新文章
互联网金融热门文章
【重！磅！干！货！】互联网金融之量化投资深度文本挖掘——附源码文档
数据挖掘DW
数据挖掘DW
实战学习资料提供。涵盖数据分析工具使用，数据挖掘算法原理与案例，机器学习，R语言，Python编程，爬虫。如需发布广告请联系：&hai299014
查看之前文章请点击右上角，关注并且查看历史消息，还可以在文章最后评论留言。谢谢您的支持！
回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录
一、功能概述
& & & &关键词词频&网络图是以股票论坛、个股新闻、研究报告三个网站作为数据源，以文本数据挖掘作为核心技术，以 Lucene 检索作为系统框架，以证券分析为目的，实现的智能文本分析系统，该系统主要实现了以下功能：
关键词词频统计
关键词网络图
& & &&其中，关键词词频统计功能是：对于给定的关键词(Word)以及给定的股票代码(Ticker)在一定的时间范围[StartDate,EndDate]内，计算每周的平均词频占比，同时给出该词频占比时间序列与股价之间的相关系数。
& & & &关键词网络图的功能是：对于给定的关键词(Word)在一定的时间范围[StartDate,EndDate]内，根据 TF-IDF 关联度指标为依据，给出与关键词最相关的 20 个一级词，以及与一级词最相关的 5 个二级词，组成关键词网络图。
二、功能模块
& & & &如本文之前所述，本文分析系统的两个功能是建立在三个文本的数据源，Lucene 检索的架构之上的。所以，实现关键词词频、关键词网络图的功能需要先做一些准备工作和模块支持，本文所实现的智能文本分析系统只要分为以下几个模块：
关键词词频模块
关键词网络模块
1) 爬虫模块
& & & &爬虫模块的主要作用在于将股票论坛、个股新闻、研究报告三个网站的网页数据通过网页解析的方式将文本内容爬下来，用于之后模块的文本挖掘。爬虫模块将爬到的文本数据以【日期 + 股票代码】为单位存至相应的 TXT 文本文件当中，同时将文本文件所在的位置以及其他相关信息写入数据库。对于每个数据源，都有一个独立的程序进行网页爬虫，他们分别是：
▲GetGuba_pylucene.py& &股票论坛网页爬虫
▲GetMbReport_pylucene.py &&研究报告网页爬虫
▲GetSinaNews_pylucene.py& &个股新闻网页爬虫
2）检索模块
& & & &检索模块的主要作用在于以 Lucene 为架构，将爬虫模块爬到的文本数据加入到全文索引当中，在建立索引的过程中，系统以“句子”作为基本的检索单位即检索关键词能够定位到该关键词所在的句子。另外，索引采用增量的方式来建立，即每次只将最新爬的文本加入到搜索索引当中，而对于三个数据源，系统分别建立了三个独立的索引。同时，在建立的索引的基础上，检索模块还实现了基本的文本检索功能，检索程序能够在一定的时间范围内对于检索给定关键词，并返回该关键词所在的存储文件的文件名，以及该关键词所在的“句子”，并将所有的检索结果输出到一个给定的文件中。
& & & &简而言之，检索模块提供了建立索引和文本搜索两个主要的功能，他们分别是：
▲IndexFiles_pylucene.py&
&增量建立索引
▲SearchFiles_pylucene.py& &关键词全文检索
3）统计模块
& & & &设计统计模块是为了随后的关键词词频和网络模块进行数据的准备，和爬虫模块和检索模块一样，统计模块也是基础模块。统计模块的主要功能有三个：
▲ 以【用户字典】为列表，计算用户字典中每个关键词在三个数据源中出现的总词频数
▲ 以【用户字典】为列表，计算用户字典中每个关键词在三个数据源中出现过的总文档数
▲ 以句子为单位，计算三个数据源中每天文档的总句子数
& & & &其中，用户字典关键词的词频数和文档数，是为了关键词网络模块中计算TF-IDF 相关度指标所准备的数据，而每天的句子数则树为了关键词词频模块中计算词频占比所准备的数据。对于统计模块的这三个功能，分别有三个独立的程序进行，他们分别是：
▲IDFCalWord.py& &计算关键词总词频数
▲IDFCal.py& &计算关键词所在文档数
▲SentenceCal.py&
计算每天文档的句子数
4）关键词词频模块
& & & &通过建立三个基础模块，能够完成一系列的应用，关键词词频模块是其中的一个应用模块，关键词词频模块的主要功能在于：对于给定的关键词以及给定的股票代码，在一定的时间范围内，计算每周的平均词频占比，给出词频占比序列的曲线和股票价格曲线的对比图，同时给出该词频占比与股价之间的相关系数。
& & & 模块中没有直接使用关键词每天的词频，而是根据每天的词频，以及当天文档的句子总数计算关键词的词频占比。对于关键词，词频占比的计算公式如下：
& & & 其中，公式的各个指标的意义如下：
& & & 分子：概念关键词在第 i 天出现的次数
& & & 分母：第 i 天中文档的句子总数
& & & &从词频占比的计算公式可以看出，词频占比是将每个星期的关键词的词频总和除以每个星期文档的句子总数得到的。使用词频占比而非直接采用词频，能够更公平地反应出关键词每天的关注程度，从而更合理地对词频信号进行使用。另外，在计算关键词与给定股票的相关系数时，模块会以一周为频率计算关键词的词频占比时间序列，同时计算该周内给定股票股价的均值，计算两个时间序列的相关系数作为两者相关性的依据。
& & & &对于关键词词频模块，只有一种调用的方式，调用时需给出关键词、股票代码以及时间范围：
▲ sigWordSeq.py &&关键词词频时间序列
5）关键词网络模块
& & & 和关键词词频模块一样，关键词网络模块也属于应用模块，关键词网络模块的主要功能在于：对于给定的关键词、在一定的时间范围内，根据 TF-IDF 关联度指标为依据，给出与关键词最相关的 20 个一级词，以及与一级词最相关的 5个二级词，组成关键词网络图。
& & & &其中关联度指标采用的是TF-IDF算法， TF-IDF是一种常用的文本检索与本文探勘的加权技术,主要用于评估某个词对于一份特定文档的重要程度。在本文的关键词网络模块中，将给定关键词的搜索结果集合作为特定文档， TF-IDF用于评估搜索结果中每个词对于该结果的关联程度，即对于关键词的关联程度。 TF-IDF的具体计算公式如下：
其中 x 为搜索结果中的某个词，为词
x 的与关键词的TF-IDF关联度指标，其他符号意义如下：
对于关键词网络模块，提供了两种形式的调用，一是对于给定的关键词，生成完整的关键词网络图，二是对于只给出与关键词关联度最高的20只股票组合，他们分别是：
▲ WordNet.py
&&完整关键词网络图
▲ WordNet_stock.py
&&关键词关联股票组合
三、模块运行
1）爬虫模块举例2个，其余不再呈现
路径： D:\TotalCode\LuceneCode\GetData\GetGuba_pylucene.py
功能：股票论坛网页爬虫
输入参数：无
运行举例：
python & GetGuba_pylucene.py
运行过程实例：
运行结果：
路径：&D:\TotalCode\LuceneCode\GetData\GetSinaNews_pyl
功能：个股新闻网页爬虫
输入参数：无
运行举例：&python & GetGuba_pylucene.py
运行过程实例：
运行结果：
路径：&D:\TotalCode\LuceneCode\Index_Search\IndexFiles_pylucene.py
功能：增量建立索引
输入参数：&数据目录& &索引目录& &开始日期& &结束日期&
运行举例：python IndexFiles_pylucene.py D:\DATA\text D:\DATA\Index\text
运行过程实例：
运行结果：
路径：&D:\TotalCode\LuceneCode\Index_Search\SearchFiles_pylucene.py
功能：关键词全文检索
输入参数：&索引目录& &关键词& &输出文件&
运行举例：python SearchFiles_pylucene.py D:\DATA\Index\text &页岩气 &
D:\TotalCode\LuceneCode\Index_Search\Output_pylucene.txt
运行过程实例：
3）统计模块举例1个，其余不再呈现
路径：&D:\TotalCode\LuceneCode\ICTCLAS_Cal/IDFCal.py
功能：计算关键词所在文档数
输入参数：&数据源& &开始日期& &结束日期&
运行举例：python IDFCal.py 股票论坛 20820
运行过程实例：
运行结果：
4）关键词词频模块举例1个，其余不再呈现
路径：&D:\TotalCode\LuceneCode\ICTCLAS_ IDF/ sigWordSeq.py
功能：&关键词词频时间序列
输入参数：&数据源& &关键词& &股票代码& &开始日期& &结束日期& &是否搜索标识&
运行举例：python sigWordSeq.py 股票论坛 &物联网& 00601&
运行过程实例：
运行结果：
路径：D:\TotalCode\LuceneCode\ICTCLAS_ IDF/ WordNet.py
功能：&完整关键词网络图
输入参数：&数据源& &关键词& &开始日期& &结束日期&
运行举例：python WordNet.py 研究报告 &页岩气& 20817
运行过程实例：
运行结果：
四、模块效率性能总汇
根据上表所示的各模块平均时间效率估计的结果，可以得到如下结论：
▲ 在三个数据源中，所有模块个股新闻的平均运行时间是最长的，研究报告次之，而股票 & & &论坛是耗时最少的
▲ 所有模块的时间消耗主要都关键词的搜索上，模块的平均耗时和模块进行的关键词搜索 & & &次数成正比
▲ 关键词词频模块 sigWordSeq 进行了一次词频检索，因此和检索模块SearchFiles 的平 & & & &均耗时相当
▲ 关键词网络模块 WordNet_stock 同样只进行了一次关键词检索，但是在计算关联股票 & & & &TF-IDF 指标是需要耗费一定的时间，因此平均耗时略长于单次的检索
▲ 关键词网络模块 WordNet 由于需要进行对 20 个一级词的搜索，因此耗费的时间是最长 & & &的。另外，由于三个数据源中【个股新闻】的数据量最大，运行 WordNet 一旦遇到高 & & &频词会消耗大量的时间，需要格外注意。
本文基于光大文本挖掘系统框架概述全文。
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：216322次
积分：3449
积分：3449
排名：第7505名
原创：22篇
转载：688篇
评论：22条
(6)(8)(10)(9)(14)(9)(39)(64)(37)(4)(2)(18)(61)(27)(26)(64)(25)(39)(18)(11)(19)(34)(29)(41)(32)(48)(30)苹果/安卓/wp
积分 368, 距离下一级还需 82 积分
权限: 自定义头衔, 签名中使用图片
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡下一级可获得
道具: 抢沙发
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
本报告导读：
在目前的文本数据研究领域，大家主要集中在对点数据的定性研究
上。本篇报告基于积累了近5 年的股票论坛文本数据，阐述了了如何对这
些文本数据进行定量分析，以及应用该数据结果所验证的投资想法。
[T abl在e_S众um人m恐ary惧] 时贪婪，在众人贪婪时恐惧
在该章节中我们主要介绍了运用文本挖掘如何量化投资者情绪。
 眼球经济与主题投资
在该章节中我们主要介绍了如何运用文本挖掘量化主题热度，并通过
该主题热度指标，为主题投资提供额外信息源。
 在冷门股中寻找投资机会
在该章节中运用股票论坛发帖量构建反映股票冷热程度因子，并且验
证在A 股市场中冷门股具有稳定超额收益。
 岁岁年年人不同
在该章节中运用文本挖掘探索主题相关个股的问题。
 年年岁岁花相似
在该章节中运用文本挖掘定义泛事件投资，探索任何能引起投资者关
注且为周期性发生事件的投资机会。
(1.19 MB, 售价: 2 个论坛币)
21:54:45 上传
售价: 2 个论坛币
支持楼主：、
购买后，论坛将奖励 10 元论坛资金给楼主，以表示您对TA发好贴的支持
载入中......
Ψ▄┳一大卫卍卐席尔瓦
谢谢您分享您宝贵的资料！
感谢，学习中
初级学术勋章
初级学术勋章
初级热心勋章
初级热心勋章
中级热心勋章
中级热心勋章
中级学术勋章
中级学术勋章
初级信用勋章
初级信用勋章
中级信用勋章
中级信用勋章
高级热心勋章
高级热心勋章
高级学术勋章
高级学术勋章
特级学术勋章
特级学术勋章
特级热心勋章
高级热心勋章
高级信用勋章
高级信用勋章
特级信用勋章
高级信用勋章
无限扩大经管职场人脉圈！每天抽选10位免费名额，现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
京ICP证090565号
京公网安备号
论坛法律顾问：王进律师

如何利用网络文本数据分析进行金融量化投资专硕

我要回帖

更多关于金融工程与量化投资的文章

随机推荐

如何利用网络文本数据分析进行金融量化投资专硕

我要回帖

更多关于 金融工程与量化投资 的文章

随机推荐

更多关于金融工程与量化投资的文章