如何基于WEB热点新闻挖掘挖掘来进行预测投资方向

君,已阅读到文档的结尾了呢~~
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
大数据环境下微博舆情热点话题挖掘方法研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于web数据挖掘的个性化推荐的研究.doc44页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:100 &&
你可能关注的文档:
··········
··········
基于web日志挖掘的个性化推荐方法研究
第一章 绪论
1.1研究背景与意义
1.2国内外研究现状
1.3 论文的内容安排
本文各章节按如下组织方式:
第一章 介绍互联网背景,引出基于web日志挖掘的个性化推荐研究的意义,分析国内外web日志挖掘和个性化推荐研究现状。
第二章 首先概述数据挖掘的基本知识,然后重点描述数据挖掘的重要分支web数据挖掘,然后对web数据挖掘在个性化推荐中的应用从数据源,建模过程做了介绍,最后分析了目前主要个性化推荐算法的优缺点引出本文选择的模型马尔可夫预测模型。
第三章 提出本文研究的重点web日志挖掘,并提出了基于web日志挖掘的一种框架设计,然后描述了各模块的功能和工作过程以及相互之间的协调工作。
第四章 介绍了马尔可夫模型的基本概念和三种基本马尔可夫模型,分析了三种模型的优缺点,提出改进的模型算法,分别从存储结构和构建过程上做了改进,分析改进模型的工作过程和相比较传统模型的优点。
第五章 通过实验对比用户模型生成时间,推荐生成时间,推荐准确度,证明了改进马尔可夫模型的可行性。
第六章 总结全文工作,指出本文不足的方面,并对接下来的工作提出展望。
第二章 web日志挖掘概述
2.1 数据挖掘
数据挖掘就是从大量的,模糊的,无规律的数据中,发现规律并提取出有价值的最终为人所利用的信息的非平凡过程。数据挖掘提取的信息是事先不为人所知的,因而所得信息具有未知性,有效性,实用性。数据挖掘由多个领域的理论和技术融合而成,包含数据库,人工智能,机器学习。现如今比较成熟的数据挖掘方法有关联分析,聚类分析,协同过滤等。以客户为中心的企业可以利用数据挖掘做好决策分析和用
正在加载中,请稍后...基于特定领域的中文微博热点话题挖掘系统BTopicMiner_文档库
文档库最新最全的文档下载
当前位置: & 基于特定领域的中文微博热点话题挖掘系统BTopicMiner
基于特定领域的中文微博热点话题挖掘系统BTopicMiner
第8期李劲等:基于特定领域的中文微博热点话题挖掘系统BTopicMiner2347
空间进行映射,从而将微博表示为话题向量;进一步地,基于话题向量对微博进行聚类分析,从聚类得到的每一个簇中找
挖掘出的热点话出热点话题词汇作为热点话题的表示;最后,
题以RSS的方式反馈给感兴趣的用户。
最近两年国内外开始了针对海量微博信息的数据挖掘研究工作,并取得了一定的进展。其中热点话题和新闻的挖掘算法大致可以分为以下几类:第一类方法是利用分类聚类方法挖
结合掘出当前热点事件。如Allan等利用单路径聚类算法,[2]
一个新阈值模型实现了一个在线新闻监测系统;路荣等利用一个两层的K均值和层次聚类的混合聚类方法,结合隐主题模型找出微博中的热点新闻话题。第二类方法是在传统的话题
——潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型—
模型的基础上针对微博消息直接建立话题模型,利用建立好的
模型直接抽取话题。如Ramage等构造了一个半监督学习
LDA将用户和Twitter特性化来个性化用户信息需求;模型L-Asuncion等[4]提出了基于分布式算法的改进的LDA和分层的狄利克雷过程(HierarchicalDirichletProcess,HDP)话题模型;Blei等[5]建立了一个新的话题模型———相关主题模型(CorrelatedTopicModel,CTM),该模型通过正态分布建模话题
之间的相关性;Sankaranarayanan等实现了一个新闻处理系统TwitterStand用于捕捉时下热门Twitter话题新闻。另外一类基于微博话题挖掘的研究方法是通过分析微博内容自动产生
关于微博的总结(Summarization)。如Sharifi等实现了用一个句子总结微博话题的方法,使用户可以快速并准确地理解一
Inouye[8]提出一种用多个个热门话题;在他们的研究基础上,
句子总结微博上热门话题的方法,克服了单个句子对话题信息量承载不足的缺陷。
为了提高从海量微博中挖掘热点话题的速度和精度,有
首先找出有影学者从微博用户传播影响力的角度进行研究,
响力的用户,在此基础上挖掘这些用户的微博消息,可以大大
提高挖掘的速度和精度。关于这方面的研究有:Yeung等提出一种用户采纳行为的概率模型,推断出在微博传播过程
中一个用户对另一用户的影响力;Anagnostopoulos等在对大量数据进行统计分析的基础上确定了社会影响是个人行为
与社会关系相关性的一个重要来源;Crandall等确定并模
型化了社会影响和个人选择之间的相互作用;Goyal等构造了一个根据传播日志静态和动态计算个人影响力的模型。
另外对微博内容进行情感分析和挖掘,可以发现微博用户对热点新闻话题的态度或情感倾向。关于这方面也有一些相关的研究成果,研究方法主要是基于图模型和文本分类技
术,例如Guerra等利用随机游走模型和图模型提出一种转
换学习方法来进行实时情感的分析;Silva等利用基于情绪
规则的分类方法对情感进行预测;Wang等基于图的分类
将粒度细化到Hashtag对话题的情感色彩进行了分类。方法,
2)索引器词条化微博内容并在离线库中对已经词条化的
词项建立索引。系统使用LuceneAPI来执行微博内容的分词
Lucene的API提供了接口来统计分词后的和索引构建。此外,
IDF得分,例如TF-这将有助于热点话题的挖掘。词频信息,
3)基于Web的用户配置界面,允许用户订阅他们感兴趣的热点话题。用户界面管理用户注册过程,并允许用户提供自己喜爱的RSS订阅。
4)热点话题挖掘引擎负责从微博中挖掘话题新闻,挖掘出来的热点话题基于用户兴趣进行排序。热点话题算法在下一章介绍。
5)用户推荐是负责将挖掘出来的热点话题转换成XML格式的RSS提要发送给感兴趣的用户。被挖掘出来的热点话题通过XLST样式转换成满足RSS要求的XML格式发送给用户
图1BTopicMiner系统架构
话题挖掘算法
基于微博的话题模型
热点话题挖掘算法是系统实现的关键。传统的话题挖掘算法多采用文本聚类方法,其中隐含的假设是:关于同一个热点话题的文档所用的词汇是相似的,因此如果将文档表示成单词向量,那么关于同一热点话题的文档向量在向量空间中
被聚集在一起的的距离应该是很接近的。基于这样的假设,
文档应该蕴含着相同的话题。但是基于单词的文档向量表示无法准确地描述出文档的语义,更重要的是:关于同一话题的文档使用的词汇不一定是相似的。更常见的情况是微博消息所用的词汇完全不同,但却蕴涵着同一话题。为了解决这个问题,在传统的话题模型LDA的基础上对微博进行话题建
从微博中挖掘出有价值的话题。LDA模型是一种产生式模,模型,但是和传统的产生式模型有重要的区别。传统的产生式模型认为一个文档只有一个主题(即文档的类别),在这个假设的基础上文档的产生过程被描述为
∑p(z)∏p(w|z)
即文档的单词产生过程为:首先假设文档以概率p(z)属于某以此为条件再以概率p(wn|z)产生单词wn。但这个个主题,
模型假设一篇文档只有一个主题是很难成立的。例如一篇关
于数据挖掘的论文其中可以有多个主题:数据挖掘、文本分
LDA模型在文档类别和类、文本聚类等。为了解决这个问题,
文档单词之间增加了一个主题层,并将文档单词的产生过程建模为
BTopicMiner包括五个基本组成部分:微博爬虫、索引器、
基于Web的用户配置界面、热点话题挖掘引擎和用户推荐。BTopicMiner基本系统架构如图1所示。
图中五个基本组成部分的功能如下:
1)微博爬虫负责自动从互联网爬取微博并进行语义分析及话题新闻的挖掘。微博爬虫的实现是基于国内最大的微博服务商新浪提供的API实现,通过新浪微博API可以下载微博用户信息和微博内容信息。
∫(∏∑p(w
|zn;β)p(zn|θ))p(θ;α)dθ
即文档的单词产生过程为:首先以概率分布p(θ)选择参数θ,再以条件概率p(zn|θ)选择主题zn;在选定主题zn的假设前
Word文档免费下载:
基于特定领域的中文微博热点话题挖掘系统BTopicMiner_数学_自然科学_专业资料。Journal of Computer Applications 计算机应用,) : 2346 - 2349 文章编号:...基于话题自适应的中文微博情感分析★★★_教育学/心理...网络的情感分析技术逐渐成为数据挖掘领域新的研究热点...topic adjunction.In additon,to improve the...基于领域知识的微博用户兴趣分析方法 术 张光前 张 园美 (1. 大连理工大学系统工程研究所 摘要 大连 孙 威 北京 6024;2.新 浪微博事业部 微博的...基于情感的中文微博话题检测方法[J]. 智能系统学报,...( topic detection and tracking,TDT) 领域, 传统...B , 并不要求该词的词频在之前 是在一定时间窗口...8种基于情感的中文微博话题检测方法12_计算机软件及应用...对微博本身的内容进行挖掘转变.在传统的话题检测领域...Keywords: Microblog, Topic detection, Clustering, ...扩展 , 建模微 博之 间的跟 帖关 系, 挖掘特定领域 的中文微博热点 话题 ...[4]Li Jin,Zhang Hua,Wu Haoxiong,et a1.BTopicMiner:domain— speciifc ...基于微博数据的用户兴趣挖掘_互联网_IT/计算机_专业资料。用户兴趣挖掘是智能推荐...Sentences 1 and 2: 100% Topic A Sentences 3 and 4: 100% Topic B ...1.1 微博短文本挖掘针对特征不足: ? 以Twitter特定领域中部分用户的个人信息及所发文 本作为特征样本,将短文本划分到预定义的分类之中 【S.Bhara , 2010】 ...基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤...Key Words: C topic ...后的微博数据进行 频繁项集挖掘,发现热点新闻话题。...的微博最常见,所有人均可见;对话类型的微 博有特定...1.3基于概率模型的主题挖掘算法 主题模型(topicmodel...实验工具为Matlab3.2R2009b. 实验结果 3.2.1...人人文库美如初恋!
页面加载中... ... 广告 0 秒后退出
资源预览需要最新版本的Flash Player支持。 您尚未安装或版本过低,建议您
分类号密级UDC硕士学位论文基于学位申请人丁一学科专业计算机应用技术指导教师卢正鼎教授论文答辩日期学位授予日期答辩委员会主席胡和平评阅人王天江李玉华AofofiI摘要随着网络技术的不断发展,如何利用数据挖掘技术从大量的网络信息中挖掘出对人们有用的资源,已经成为研究的热点问题。信息推荐技术需要解决的三个问题是首先,要理解用户的需求其次,是能高效、准确地执行查询任务最后,能把结果很好地组织起来交给用户。目前比较成熟的信息推荐技术是采用面向网络信息来解决以上问题的。但是,这种方式很难执行好用户个性化的检索需求,因此提出了面向用户的个性化推荐模型。通过对通用搜索引擎和元搜索引擎的研究,提出了个性化推荐模型,该模型分为离线部分和在线部分。离线部分由数据预处理和特定的访问挖掘任务组成,数据预处理将网络服务器的访问日志文件以及站点的相关文件生成用户文件和事务文件特定的访问挖掘是利用聚类算法来生成网页聚类。模型的在线部分主要是利用离线部分生成的网页聚类,再根据用户的当前访问操作行为,动态地为用户推荐下一步访问操作。在线部分主要是由用户接口、兴趣学习器、个性化分析器、推理器、网络数据连接管理器、个性化过滤器和网络服务器等组成。在线部分涉及到的关键算法有兴趣学习算法、个性化分析算法、个性化过滤算法和推理算法,此外还对模型的一些简单的语法规则进行了定义,通过实验环境实现了一个界面简单的推荐模型。关键词数据挖掘,个性化,信息检索,推荐服务,聚类分析oftotoebtobeaintobeitsititistotoRinaRInweaofofebofofisebofofRLRLonofofebofofofof录摘要...........................................................................................................................................................................................................绪论数据挖掘..........................................................................................1据挖掘..................................................................................2个性化推荐服务的现状...................................................................3论文研究内容及其组织...................................................................52个性化掘据挖掘..................................................................................7几个重要的研究方向.....................................................................11掘的个性化.........................................................................13个性化推荐解决的问题和目标......................................................16小结...............................................................................................173基于掘的个性化推荐个性化服务中用户研究.................................................................18个性化推荐....................................................................................20个性化推荐服务技术.....................................................................23个性化推荐模型.............................................................................29小结...............................................................................................324个性化推荐模型设计与实现推荐模型描述................................................................................33模型离线预处理.............................................................................34离线挖掘算法................................................................................37模型在线推荐................................................................................38模型测试结果................................................................................48小结...............................................................................................505论文总结主要工作总结................................................................................51进一步的研究方向.........................................................................51致谢....................................................................................................53参考文献................................................................................................54附录1攻读学位期间发表的论文目录................................................5711绪论近年来,随着大规模的工业生产过程的自动化、商务贸易电子化及企业和政府事务电子化的迅速普及以及科学计算的日益增长,产生了大规模的数据源。计算机网络技术的长足进步也为数据的传输和远程交互提供了技术手段,特别是互联网的迅速发展更是将全球的信息源纳入了一个共同的数据环境中1。日益成熟的数据库系统和数据库管理系统都为这些海量数据的存储和管理提供了技术保证,为步入信息时代奠定了基础,这些庞大的数据库及其中的海量数据是极其丰富的信息源。在这些信息源中隐含了许多有潜在价值的知识,如何发现这些有用的知识是人工智能、数据库等领域的研究焦点。但是仅仅依靠传统的数据检索机制和统计分析方法已经远远不能满足需要了。因此,近年来出现了一门新兴的知识获取提取技术数据挖掘。数据挖掘旨在从数据库中提取正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。它的出现为自动和智能地把海量的数据转化成有用的信息和知识提供了手段1。数据挖掘涉及到诸如机器学习、模式识别、统计学、数据库和人工智能等众多学科,是数据库理论和机器学习的交叉学科。数据挖掘数据挖掘和知识发现密切的联系。知识发现(2是指从数据库中发现有用知识的整个过程,数据挖掘是这一过程中的一个特定步骤,知识发现包括数据选择、预处理、数据转换、数据挖掘、模式解释和知识评价等多个步骤,是应用特定数据挖掘算法和评价解释模式的一个循环反复过程,并要对发现的知识不断求精深化,使其易于理解数据挖掘是知识发现过程中的一个关键步骤。数据挖掘(从大量的、不完全的、有噪声的、模糊的、随机的数据中提取潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的是提高市场决策能力检测异常模式在过去的经验基础上预言未来趋势等3。这些知识和规则是隐含的、先前未知的、对决策有潜在价值的有用信息。通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,为决策提供依据,从而使数据库作为一个丰富可靠的资源,为知识归纳服务。与传统的数据库查询系统相比较,数据挖掘技术有以下不同42(1)传统的数据库查询一般都具有严格的查询表达式,可以用数据挖掘则不一定具有严格的要求,常常表现出即时、随机的特点,查询要求也不确定。(2)整个挖掘过程也无法仅用实际上,数据挖掘常常用一种类似(3)传统的数据库查询一般生成严格的结果集,但数据挖掘可能并不生成严格的结果集。挖掘过程往往基于统计规律,产生的规则并不要求对所有的数据项总是成立,而是只要达到一定的事先给定的阈值就可以了。(4)通常情况下,数据库查询只对数据库的原始字段进行,而数据挖掘则可能在数据库的不同层次上发掘知识规则。从广义上讲,数据挖掘分为三种类型全自动、半自动和全交互式。对于全自动技术,一旦系统被创建,无需人的任何干预,它能在后台自动进行操作对于半自动技术,系统或者在后台操作,或者采用全交互方式对于全交互式技术,是一种简单的数据挖掘,它由用户设置每次操作的参数,然后等待相应结果。数据挖掘在解决实际问题时,经常要同时使用多种模式。一个数据挖掘系统或仅仅一个数据挖掘查询就可能生成成千上万的模式,但是并非所有的模式都是令人感兴趣。这里有一个重要的概念,兴趣度(,通常是用来衡量模式的总体价值,它包括正确性(、新奇性(、可用性(和简洁性(。数据挖掘工具还要求具有开放性,它的开放性体现在两个方面能与各种数据源集成分析的结果是通用的或易于转化的。数据挖掘工具相互差别很大,这不仅体现在关键技术上,还体现在运行平台、数据存取和价格等方面。从运行平台来看,简单的工具可运行在,复杂的工具要求运行在数据存取来看,简单工具处理的数据以文件形式输入,复杂工具要求大型的数据库环境。目前,数据挖掘已成为计算机科学研究中的一个十分活跃的前沿领域,并在市场分析、金融投资、欺诈甑别、医疗卫生、环境保护、产品制造和科学研究等许多领域获得了广泛的应用,取得了十分可观的社会效益和经济效益。同时,知识发现和数据挖掘的研究和应用,对于人工智能这门前沿学科的发展注入了新的活力,有力地促进了计算机科学朝着纵深方向顺利发展。它涉及新闻、广告、消费信息、金融管理、3教育、政府、电子商务和许多其它信息服务。以及和使用信息,这为数据挖掘提供了丰富的资源。人们希望有一个工具能够自动从传统的数据挖掘基于关系数据库或数据仓库,所处理数据具有完整的结构。但是结构的,并且存在着大量的冗余与噪声。对有效的数据仓库和数据挖掘而言,而且仍然在迅速地增长。(1)数据源具有很强的动态性,这就需要借鉴数据仓库的某些技术,以此保存(2)数据的多样性,既有数值型整型、实型、布尔型,又有分类数据、性质描述数据以及如。新的数据类型必然带来新的特色,需要对原有挖掘方法进行改进和扩充。(3)用户目标的模糊性,基于提不出很明确的目标来。这就需要数据挖掘系统具有一定的智能性和学习机制,不断地跟踪用户的兴趣,清晰明白地阐述挖掘结果。的。据统计,99的9的用户是无用的,这些无用的信息会淹没用户所希望得到的推荐结果。基于以上的分析可知,这些挑战推动了如何高效且实际地发现和利用因特网上资源的研究工作。目前有许多基于索引的利用推荐引擎,有经验的用户可以快速定位到所需的文档。但是目前基于查询串的推荐引擎存在一些问题。首先,推荐引擎返回的文档数过于庞大,其中很多与话题相关性并不大其次,很多与话题相关的文档可能并不包含相应的查询串。因此,对的掘。个性化推荐服务的现状随着信息科技的进步和互联网的日益普及,如何在浩瀚如海的信息空间里,快速查找并获取所需的信息已成为信息时代最根本的问题之一。网络个性化推荐在网络信息资源查找中起到了重要的作用,它可以帮助人们从数以亿计的网络信息中找到自己想要的信息。4信息检索技术经历了三个发展阶段顺序检索、顺序与倒排检索相结合、全文检索。全文检索早期的发展,一是源于手工标引已不适应信息增长的需要,二是人们采用自然语言直接进行检索的原理5,6。据研究者统计,目前互联网上的搜索引擎已达数千种,仅中文搜索引擎就达70余种。在庞大的搜索引擎家族中,有囊括各学科、各种主题网络信息的综合性搜索引擎,有以特定学科或专业领域的网络信息为收录对象的专业性搜索引擎,还有专门列举搜索引擎的搜索引擎指南。搜索引擎作为一个整体,存在着质量参差不齐、信息的分类加工欠规范、搜索速度慢、死链接过多,以及提供的检索结果中重复信息及不相关的无效信息过多等弊端,对检索效果形成负面影响。网络信息的急剧增加,令以覆盖所有学科、所有类型信息为宗旨的综合性搜索引擎亦越来越难以应对,就是号称功能最为强大的搜索引擎,在网络信息搜索与加工软件的升级开发上,亦无法跟上网络信息的增长速度。搜索引擎在网络信息的组织、加工等环节上缺乏可供操作的、统一的技术标准,处于各自为政的无序状态,这主要体现在网络信息的分类上。统一的网络信息分类标准的缺位令网络用户无所适从,他们被迫接受各搜索引擎的分类体系无法兼容的事实,每使用一种新的搜索引擎,就意味着他们必须接受该搜索引擎与其他搜索引擎在分类体系上的差异。搜索引擎之间的检索体系存在一定的差异性,难于相互兼容,给网络用户掌握通用的信息检索技巧与方法带来不必要的操作障碍。每一种搜索引擎的开发者在设计该搜索引擎的核心检索技术时,都以突出自身特色而各显千秋,故不同的搜索引擎均有着相对独立的检索方法与技巧。各个搜索引擎都有一个特色化的检索体系等待网络用户去适应,这些检索体系在推向用户之前较少通过试运行从网络用户中搜集反馈信息,因此在适用性上存在先天的不足。网络搜索引擎一般由信息采集器索引数据库及用于检索索引库的检索软件部分组成。信息采集器主要负责访问各种站点,取回页的信息。运行,只要提供少量的起始网页,了会将网页上的信息读回以外,还将沿着网页上的超文本链接,自动访问网页链接的其它网页,直至遍历整个网站。网站的访问是周期的,一般为每月一次或数次,访问次数视网页的更新频率而定。索引器负责索引库的建立。回的信息很多,直接用于查询,其效率将非常低。索引器的主要工作是建立一个包含关键信息的索引库以备查询。索引器的策略很大程度上影响了搜索引擎的效5率与准确性。目前,比较常用的方法是对网页的标题评语行索引。检索软件负责提供用户使用搜索引擎的接口。检索软件通常是一个用程序,其主要工作包括接收、解释用户的搜索请求查询索引库计算网页与搜索请求的关联度提供排序后的搜索结果返回。简而言之,信息采集软件是从一个已知的文档集中读取信息,并检查这些文档的链接指针,指出新的信息空间,然后取出这些新空间中的文档,将它们加入到索引数据库,检索软件通过索引数据库为用户的查询请求提供服务,但现有的搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很大的不足,索引数据库往往很大,检索的查准率不高。论文研究内容及其组织课题提出的现实意义与目标随着经济的不断发展,我国经济的开放度不断提高,因而遭受各种外部冲击的可能性和受影响的程度也将日益增大,各种国际规则和惯例对我国经济运行的制度约束越来越强烈,这些制度约束将产生强制性的制度变迁效应,加快我国外汇管理制度和模式变革的进程,在转化过程中,如何维护和提高管理效率,尽可能地减少制度变迁成本,将成为外汇局所面临的一大挑战。为此,迫切需要建立一个功能强大、数据完整的信息管理系统去统驭其他业务管理系统的运行。本课题来源于与国家外汇局合作的国家外汇信息管理决策系统的项目,简称根据我国外汇管理的需要,按照外汇局说得清,管得住,服务好的指导思想建立的集业务管理与辅助决策于一身的综合信息服务平台。它将是外汇局完成真实性审核、统计预警和政研立法三大职能的支撑系统,也将成为我国外汇管理电子化的核心平台。它将以采集基础数据取代报表数据以电子数据的直接提取或交换取代业务数据的二次录入与加工传递以接近实时取代定期、不定期以系统灵活的、即插即用的应用程序取代独立、固定的应用程序借助报表生成工具以灵活组合、自定义方式的查询方法取代固定的查询、报表生成程序以系统的指标体系、科学的分析方法、灵敏的决策机制取代静态的、孤立的、缺乏全面信息支持的决策方式。这一课题属国家十五攻关课题(2001并由本课题组承担,一期工程于2003年12月通过国家验收。本课题的目标是以建立国家外汇管理局决策支持系统为实践背景,利用数据挖掘理论技术,改进并实现基于掘的个性化推荐服务技术,从而对国家外汇管理局6网站的息文件进行挖掘,得出用户的访问模式,从而可以进一步分析和研究日志记录的规律,来改进国家外汇管理局网站的组织结构及其性能,改造自适应网站还可以通过统计和关联分析,了解使用用户的爱好,增加个性化推荐服务,使用户足不出户就可以了解和关注到自己感兴趣的信息和资源,更好的为用户服务也可以是外部数据采集员用来在面采集相关数据、资料的工具。论文组织论文比较系统完整的分析和论述了数据挖掘技术的热点难点、掘的体系结构、个性化服务的定义、基于掘的个性化推荐服务。各章节内容安排如下第1章绪论简要介绍了本文要描述的数据挖掘的基本概况和掘的基本定义,本文的课题背景、目的和意义,以及论文的主要工作。第2章个性化掘简要介绍了掘的定义、分类、过程、任务,还介绍了个性化服务的定义,个性化推荐解决的主要问题以及掘的个性化,最后还介绍了目前比较流行和重要的几个研究方向。第3章基于掘的个性化推荐模式首先对个性化服务中的用户服务研究做出了描述,接着介绍了个性化推荐模型的工作机理、分类以及目前个性化推荐存在的问题然后对个性化推荐服务的具体技术问题、实现方法进行了介绍,最后对目前比较流行的通用模型和元搜索引擎进行了分析。第4章个性化推荐模型设计与实现首先对模型进行了具体描述,然后就个性化推荐模型的离线部分预处理、离线算法和在线部分的定义、数据流程、算法的分析以及具体实现技术进行了具体的阐述。模型的在线部分主要是利用离线部分生成的网页聚类,再根据用户的当前访问操作行为,动态地为用户推荐下一步访问操作。通过实验环境实现了一个界面简单的推荐模型。第5章论文总结总结了本论文的特色和创新,以及提出了今后工作的发展方向。72个性化本章将从掘的定义开始,介绍了掘的分类、掘的过程、息检索,还介绍了几个最重要的挖掘技术,最后将介绍一下数据挖掘是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题6,7。数据挖掘技术应用于泛分布的、高度异构的、半结构化的、相互联系并且不断进化的信息仓库是一个巨大的文档累积的集合,包括超链接信息,访问及使用信息。大量的非结构化数据无法使用现有的数据库管理系统来操纵和管理,其用户群体也表现出多样性的特点,这些都对信息系统的研究人员提出新的挑战7。因为与传统的数据挖掘相比又有新的特质。首先,象是大量异质分布的个数据源都是异构的其次,谓半结构化,是指是它没有特定的模型描述,每一站点的数据都有各自独立设计,并且数据本身具有自述性和动态可变性,是一种非完全结构化的数据。而传统的数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于使可用也需要建立在对2。通过数据挖掘,个人、企业、网站从根据各自不同8的目的和特点,抽取有关数据并且从中发现数据中隐含的规则和知识,从而更进一步地获取数据。有3个目标精确度,即返回数据符合用户需求的程度覆盖率,即有多少符合用户需求的数据被返回效率,即响应速度。现今最流行的根据挖掘的对象将其分为基于内容的挖掘和基于用户使用记录的挖掘。(1)是对网页上真正的数据进行挖掘,包括网页内容挖掘和推荐结果挖掘。文本、图像、音频、视频、元数据和超链接,也有些如所含的半结构化数据,但大多还是无结构的文本数据。文本、超文本内容的挖掘是但作为内容挖掘一份子的多媒体数据挖掘近年来受到许多研究人员的关注,对于统一表示模型、问题解决及从多媒体数据中学习这些问题的研究非常迫切,也将是巨大的挑战7。随着许多只支持由关键词和超链接所构成推荐引擎返回的结果中有许多无用及无关的信息,因此,要推荐某一给定话题的不仅希望得到与之相关的页面,还希望所检索的页面具有高质量,即针对该话题具有权威性。权威性就隐藏在当一个这可以看作是作者对另一页面的认可。把一个页面的来自不同作者的注解搜集起来,就可以用来反映该页面的重要性。因此,大量的量和结构方面的信息,这对(2)在网上的行为,比较网站的实际使用与期望的差别,根据用户的兴趣调整网站结构7。是对8,如图这些数据包括客户端数据、服务器端数据和代理端数据。者是用如后者是分析某一时刻每一个用户的访问模式,网站根据这些模式自动重建结构,如自适应站点。的或叫包括了所请求的发出请求的基于热点的eb来发现用户访问通过分析和探究可以识别电9子商务的潜在客户,增强对最终用户的因特网信息服务的质量,并改进甚至建立针对个体用户的定制站点文件用户会话文件感兴趣的规则模式规则汇总预处理挖掘算法模式分析原始日志图目前,根据数据挖掘的通用方法,结合以将个步骤2,如图网站结构、内容目标数据经过预处理的数据知识表述模式、规则、统计结果预处理数据挖掘模式分析图(1)数据的取样超链接数据和记录用户访问情况的按照主题相关的原则,数据取样从大量数据中取出一个与探索目标相关的数据子集,为后面的数据挖掘提供素材和资源。(2)数据的预处理数据的预处理是对数据源进行加工处理和组织重构,构建相关主题的数据仓库,为下一步的数据挖掘过程提供基础平台,做好前期准备。它主要包括数据清理,数据集成,数据转换和数据简约。(3)数据的挖掘这是数据挖掘系统的核心部分。它的主要功能是运用各种数据挖掘技术,从经过预处理的数据中提取出潜在的、有效的且能被人理解的知识模式。10数据挖掘的目标是描述和预测,描述型模式是对数据中存在的规则作一种描述,或者根据数据的相似性把数据分组而预测则是指根据属性的现有数据值找出其规律性,进而推测出其在未来可能出现的属性值。(4)分析与评估数据挖掘所得到的知识模式需进行可信度和有效性分析,并对其做出评估结论,为用户的经营决策提供信息支持。如何检验得到的分析结果是否有用,一个简单的办法是直接使用原来建立模型的样板数据进行检验另一种办法是另外找一些反映客观实际的规律性数据来检验再一种办法是在实际运行的环境中取出新数据进行检验。(5)知识表述知识表述是指用适当的形式将利用数据挖掘工具从以利于用户接受和相互交流。数据挖掘的任务是多方面的,主要包括总结(规则挖掘、关联(规则挖掘、分类(规则挖掘、聚类(规则挖掘、预测(分析、趋势(分析、偏差(分析等。(1)特征抽取通过对数据源的分析,提取出关于该数据集的一些总体特征表达式。(2)关联分析找出相互独立的不同事物之间的关联规则,经过关联分析处理,得到结论。(3)属性分类利用分类器,能够把数据集中的数据项映射到某个分类。例如可建立一个分类模型,对银行贷款的安全或风险进行分类。(4)聚类分析在没有给定主题类别的情况下,通过对数据集的分析和比较,把数据划分到不同的组中,组之间的差别尽可能小。(5)时序预测时序预测和关联分析相仿,是把数据之间的关联性与时间联系起来。为得到时序预测,不仅需要知道事件是否发生,而且需要确定事件发生的时间。例如情人节前巧克力和鲜花的销量会突然上升。在实际应用中,数据挖掘必须借助一定的工具,这些工具主要包括代理、查询报表、统计分析、数据发现神经网络/决策树模型分析以及维分析和可视化表现等4。们往往将1信息挖掘与的信息推荐等同起来,但实际上它们之间是有区别的9,10,主要体现在(1)的信息推荐主要是通过查询串来进行推荐,而息挖掘则能对用户给的复杂目标进行特征抽取,然后根据所提取的特征在网络中进行搜寻。(2)所有的息挖掘基本上都要用到信息推荐技术,而并非所有的规律,而决策使用。由于结构化的数据结构、开放动态的数据存取等特点,使得须对挖掘对象进行适当处理,以获得被挖掘对象的有关特征信息。此如何对处理而得到关于文档的特征表示,便成为前各种信息检索工具的研制是络信息检索工具的核心是其检索功能。检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索,其中的大多数检索都与数据挖掘的算法相关。其逼近能力的研究与实现体现了数据挖掘结果的质量,要实现多路数据的数据挖掘,开发具有较高挖掘质量的检索工具,必须探索一些知识信息处理的方法。目前,支撑矢量机、粗集、进化算法的研究方兴未艾,某些技术已经成功地运用到几个重要的研究方向挖掘源有关某个主题的信息杂乱地散布在样就需要有一个强大的推荐引擎,定位超文本的位置。现有的返回的文档过于庞大,所包含的内容质量却不高。而且由于很多与话题相关的文档可能不包含相应的查询串,导致结果很可能也不全面,对文档进行先扩大后缩小的方法来推荐7。权威页面的识别而且还包含了一个页面指向另一个页面的超链接。超链接12包含了大量人类潜在的注释,权威性就隐藏在这些超链接中。当一个可看作是作者对另一页面的认可。把一个页面来自不同作者的注释收集起来,就可以用来反映该页面的重要性,即用于权威的样可以进行页面等级的划分,事实上,(1)每一个超链接都代表一个认可,例如广告(2)由于商业或竞争的考虑,很少有也就是说显著权威权威页面很少具有特别描述之类的自描述信息,这就需要使用一个它提供了指向权威页面的链接集合。或者说可能没有几个链接指向它们,但是,类页面可以是主页上的推荐链接列表。好的种可用于权威页面的挖掘和高质量法op是利用于些系统由于纳入查询效果明显优于基于词类索引引擎产生的结果。息过滤系统它从站点中利用内容和结构信息挖掘算法。预处理算法包括识别用户、服务器会话和推断缓存网页。除了创造一个服务器会话文件,把服务器会话转换为事件。对服务器会话或事件文件可以进行序列模式分析、关联规则发现、聚类等,其结果通过简单的知识查询机制、可视化工具或信息过滤器进行分析,形成需要的模式。图挖掘预处理的输入包括三个服务器日志、站点文件、注册文件及远程代理日志。预处理阶段利用这些输入形成用户会话文件,经过事务识别形成用于模式发现的事务文件。模式发现利用现有的数据挖掘方法(关联挖掘、聚类、序列模式挖掘、统计学方法等)产生规则和模式,再经过各种模式分析工具得出最终有效知识7。13站点文件存取日志、参考日志、Agen注册信息及远程代理Spide路径补充、会话识别、用户识别网站拓扑结构用户会话文件网页分类事件识别事务文件标准统计信息包聚类、序列模式挖掘、关联规则挖掘序列模式、用户聚类、关联规则使用记录统计信息过滤知识查询机制OLAP/可视化图构随着网络技术的发展及机器学习、模式识别等知识发现新技术的出现,电子商务竞争已使得信息服务方式从传统的一对多发展到一对一的个性化用户服务方式,即为恰当的用户在恰当的时间方便快捷的提供恰当的信息。随着电子商务中引入个性化用户服务方式,企业需要对境下的客户资料数据进行深入的统计与分析,找出不同用户兴趣所在,透视隐藏在这些数据之后的更重要的用户兴趣模式信息以及关于这些数据的整体特征的描述并预测其发展趋势等。了解用户在境中的14访问模式将不仅改善点设计,而且对企业市场决策过程具有重要的意义。本章介绍的基于掘的个性化推荐服务即是利用个性化技术将传统的数据挖掘(象同问信息结合起来,利用掘的方法抽取用户感兴趣的潜在有用模式与信息,然后基于这些模式和信息为用户提供一对一的具备自适应性的个性化推荐服务。这些个性化推荐服务可大大缩短用户在网络上的访问延迟,使得提供给用户的网络信息服务质量得到最大程度的提高。成为人们获取信息的一个重要途径,由于息的日益增长,人们不得不花费大量的时间去推荐。浏览自己需要的信息,推荐引擎(最普遍的辅助人们检索信息的工具,比如传统的推荐引擎新一代的推荐引擎。信息检索技术由于其通用的性质,虽然满足了人们一定的需要,但仍不能满足不同背景、不同目的和不同时期的查询请求。个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的,示。个性化推荐服务即是利用个性化技术将传统的数据挖掘对象同问信息结合起来,利用掘的方法抽取用户感兴趣的潜在有用模式与信息,然后基于这些模式和信息为用户提供一对一的具备自适应性的个性化推荐服务。个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的访问者。1.识别访问用户2.查询用户资料3.选择用户感兴趣的内容4.查询内容、重新组织网页4.1推荐的超链接列表4.2推荐的广告列表4.3推荐的商品列表4.4经裁减的文本或图象列表用户文件用户代码、密码、兴趣内容文本、图片、连接等个性化网页图个性化模型的基本组成15为实现基于个性化推荐服务,首先需要对相应主题下各用户的信息需求内容,以及各专业信息网站的内容,进行归纳总结,以便构造出该主题范围内的信息模型层次树(然后根据所获得的容,对该主题中各信息网站的主要内容和组织结构进行分析,提出获取相应的信息模型层次描述内容的网页推荐知识和网页信息抽取知识这时开始进行信息网页推荐和网页信息抽取工作并逐步建立起一个基于信息层次模型的完整信息库之后就可以根据各用户具体信息需求描述,从信息库中筛选出满足相应用户需求的信息内容并提供给用户。综上所述,性化尤其性化推荐模型是帮助人们快速获取信息的有效手段。然而,现有模型仍然存在如下一些缺陷或不足(1)非个性化方式适
编号:46489 && 大小:478.50KB && 格式:DOC && 上传时间:
关&键&词: 基于 Web 挖掘 个性化 推荐 服务 研究
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。5. 人人文库网仅提供交流平台,并不能对任何下载内容负责。6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
& 人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
当前资源信息
官方联系方式
客服手机:&&& 1:&&&
2:不支持迅雷下载,请使用浏览器下载&&&
3:不支持QQ浏览器下载,请用其他浏览器&&&
4:下载后的文档和图纸-无水印&&&
5:文档经过压缩,下载后原文更清晰&&&
&& && && && && && &&
copyright@
人人文库网网站版权所有 国家工业信息化备案:苏ICP备号-5

我要回帖

更多关于 数据挖掘预测模型 的文章

 

随机推荐