阿里巴巴大数据库应用的特点应用策略有何特点

大数据案例1_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
大数据案例1
上传于|0|0|暂无简介
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
你可能喜欢19728人阅读
Recommended System(4)
杂感(15)
大赛地址:
最终成绩:/competition/addDiscovery/totalRank.htm
参赛队伍数:7276
& & & & &S1: & & & & & & & & &成绩F1|排名&&7.07%|205
& &S2换数据前: & & & & & 成绩F1|排名 &5.98%|21&
S2换数据后(最终):&成绩F1|排名 &6.02%|29
& &&参赛前的目标就是Top50,也算是圆满完成目标了,现在只求这次比赛对于明年阿里校招的奖励机制给力一些!
中间曾多次闯入首页Top20,截图留念:
&S2最终排名
2、心路历程
& & & & &首先谈谈报名参赛初衷:
& & &1).主要想锻炼自己,想要积累一些推荐这个领域的实战经验,再加上刚好去年刚看了一些传统的经典的推荐算法的书籍,去年参与实验室的一个项目就是和推荐相关;
& & &2).对阿里的云平台odps比较感兴趣,想体验一下,真实地触摸大数据体验大数据;
& & &3).当时报名的时候希望能进Top50,能拿到明年阿里的校招的绿色通道.
& & &第一赛季,和实验室同项目组的谷神和ycc一组,当时组队的时候对我们的期许都很高,但是因为各种各样的原因,三个人的参与程度都不是很高,交流也不多,S1的成绩并不是好,记得当时用了我用了师兄论文中的一个Baseline 的推荐算法,Top Sensitive Pagerank来实现,发现效果很差,后来和其他同学交流得知用规则就可以做得很高,后来基本就光想规则,没有思考模型思考算法层面的东西,所以S1感觉收获不大。最后一天,我们的队伍500多名,即将面临淘汰,因为这个比赛最吸引我的还是ODPS(阿里的云平台)的使用,就想继续玩玩,就抱大腿临时加入到小鱼他们队,才以至于有这之后的三个月S2的故事。
& & S2 队友小鱼很给力,又是个可爱漂亮的妹纸,她的总结在这里,诸多细节我就不再赘述。
& & & & &&
3、4个月比赛中我做了些什么
& & && &&&1、平均每天的参与程度时间为4-5h左右,S2三个月共花了400+
&&&&&&&&& 2、了解和熟悉LR、RF、GBRT等算法的一些原理,以及这些算法的Python接口在ODPS中的调用
&&&&&&&&& 3、知道了机器学习在实战中的完整过程,从数据集Train和Test集的划分,过拟合,模型的选择,特征的抽取,正负样本的处理,采样方式(向上采样、向下采样),各种调参,特征的处理,y值处理,融合的方式都有了一个不一样的理解。
&&&&&&&&& 4、作为数据库方向的学生,说实话有些许惭愧,之前对普通关系型数据库最基本的SQL操作都不是很熟练,通过这个比赛对SQL已经基本掌握(包括Join,Union,Group By,Order By等)
&&&&&&&&& 5、重点了解了分布式odps的基本原理(其实就是Hadoop),对MapRedece有了更加深入的了解(包括任务分解合并的过程等),并且自己能够够独立地编写MapReduce程序来提取特征,通过这个比赛完成不重复代码的编写5000行+.
4、分享一些干货
& &&&A.整个模型建模过程,这里用了很早之前的LR模型(特征也是最普通的SQL暴力提取),整个流程其实是一样的
& & &阿里大数据的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。考虑到S1过程中我们初步判断点击的数据只有最近的半个月影响较大,故我们最初的LR模型就采用半个月的数据作为一个时间周期,这里所说的对点击率做LR模型是指逻辑回归,也就是推荐系统中常见的分类问题,即9月份买或者不买的问题,买用1表示,不买用0表示。
& & &&TrainData准备:7.01-7.15(A)的点击数据作为feature,7.16-7.31(B)购买与否数据作为y,同时控制正负样本的比例,抽取A中的点击同时B中购买,同时随机抽样A中的点击但是B中未购买的样本(这种样本数量很多,需要对之随机抽样,可以使用Xlab中的随机抽样功能),控制正负样本的比例。将A的点击+B中的购买与否y构成完整的TrainData。
& & &在构造TrainData的过程中,需要考虑时间衰减的因素,我们引入衰减因子,sum(1/(1+aipha*Days)).
& & &TestData准备:8.01-8.15(C)之间所有购买的数据。
在虚拟机中,具体过程如下:
& & &(1)计算A中所有点击visit_datetime距7.16时间间隔,用如下SQL代码执行:
& & &(2)考虑时间衰减因子,group by同一个user_id对brand_id的总的clickValue,这里的alpha初步设置为0.8
& & &(3)通过步骤1和步骤2已经生成了triandata中的点击数据,现在生成相对应的y为1数据样本:
抽取所有y=1的样本,利用Xlab填充y为NULL的样本的y值为0,随机采样y=0的样本,控制和y=1的比例接近(正负样本比例接近),将正负样本进行合并,最终生成完整的TrainData(user_id,brand_id,clickvalue,y)
& & &(4)利用Xlab工具对完整的TrainData进行逻辑训练,生成训练的模型表。
& & &(5)针对模型,在TestData(C)上上进行预测,产生训练结果表(包括调参)。
& & &(6)对结果表按照提交格式进行提交数据。
B.通用多模型Ensemble过程
& & &在推荐系统中,比较通用的多模型Ensemble过程应该是这样的,我们以阿里大数据推荐竞赛来具体理解一下。
将数据的前3个月的交互数据(其Label为第4个月的购买情况)划分为80%的数据作为Train,20%的数据作为Test。
1、80%的Train数据训练出Model_0,Model_1,Model_2...Model_i.
2、20%的Test中的前三个月交互数据(不包括Label)作为测试数据输入Train出来的各个Model_i,分别得到每一个Model_i的(u,b,probability_i).
3、将2中得到的test结果组成一个大的特征,(u,b,probability_0,probability_2...probability_i.label),其中Label来自Test中原本存在的Label,将这个数据重新训练(LR,RF,GBDT),产生EnsembleModel.
4、将后三个月的数据用Model_0,Model_1..训练得到相应的probability,将这些结果拼装成(u,b,probability_0,probability_2...probability_i)的形式,再用EnsembleModel再训练一次,得到最后的Probability,最后取TOPN进行提交
注意:在线上提交阶段,真正的是需要用100%的训练数据进行Model训练,但是考虑到比赛时间的限制,80%的数据进行训练的Model_i 可以作为线上直接使用。
C.在ODPS中运用SVD分解思路(虽然对于这次大赛效果很不好,最后也没有用上任何FM,但是对于我理解SVD还是有一些帮助,就随便写一点了)
& & &由于odps中表格的列最大为1024,所以我们选取打分最高的top1000 brand作为svd分解估计的brand。
线下测试:
1、把gbrt结果y_val作为开始u和b之间的pro
2、svd分解,选出未交互的ub对,然后加上u特征和b特征,进行gbrt或者rf训练
3、得到数量较小的但是准确率较高未交互的ub属性。
SVD基本思路:
构建userNum*brandNum矩阵matrix,矩阵的初始值matrix(i,j)表示用户i对品牌j的相关度,值越大越表示该用户与品牌的相关度越大
[u,s,v]=matrix.svd(k)
取奇异值的前k个
讲分解的结果重新乘回去,得到新的矩阵,即可以得到某用户与brand未交互的相关度
result=u*s*v.transpose();
5、分享一些体会与收获
& & &1、这比赛对我最大的收获应该是从比赛中重新找回自信吧,从宁大保研来浙大之后,可能没有完全适应浙大竞争激烈的环境,不管是在实验室科研上,还是生活中的种种都不是特别顺利,开始慢慢地怀疑自己,变得不像本科的时候那样的自信,通过比赛,重拾自信,重新上路。
& & &2、参加这种比赛,选择靠谱队友很重要,队友之间的配合非常重要,对于我们最后能够取得Top30的成绩,我觉得我和队友小鱼之间的配合做的还不错,两个人的参与热情高,愿意花时间,小鱼主要负责前期的建模过程,利用SQL提取特征,以及后期的模型融合以及上交结果,而我主要负责在模型初期和小鱼讨论特征以及建模整个过程,最重要的工作主要是利用ODPS上的mapreduce代码的编写用来提取我们想要的特征。
& & &3、信息的获取很重要,我们承认,至少是我承认,我们有没有非常厉害的创造创新的能力,我们的思路主要来自组内的交流以及和其他队伍的交流,我觉得我们这一点一开始就非常重视也做的还不错,但也有像实验室另一个同学所说的,这可能是不能超越其他强队的原因,我觉得他说的也非常有道理。而我更加认为偏向于当我们没有达到某一种高度成绩没有到达一定的程度就去做创新的东西很难,就比如这个比赛中应该是夺冠的Marvel,他做了未交互的ub部分预测,并且取得了意想不到的效果,但是你要想想,有多少支队伍尝试做过这部分工作,至少最终的top50都有做过吧,并且花的时间肯定都不少,都没有取得想要的好的结果。
& & &4、比赛过程中代码的自动化非常重要,前期花了不少时间花在一些无谓的地方,现在回过头来想想可能觉得有些可惜,不过也有可能就是摸着石头过河吧。
& & &5、比赛的笔记记录非常重要,因为这次比赛时间非常长,数据有非常多的版本,所以需要记录每一个version的算法、特征提交后的成绩等,要不然到后期根本搞不清楚。
& & &6、关于比赛的一点小遗憾就是,最后的模型融合可能没做好,原因之一是前期花的时间也不是很多,没有划分Train和Test再次训练模型之间参数来Ensemble,现在想想有些许小遗憾。
& & &7、这三个月,和队友,瞒着导师偷偷做阿里的大数据比赛,异常地艰辛,不敢在实验室激烈的讨论,这三个月生物钟完全乱掉,每天凌晨4点多钟起来看成绩,和小鱼互发短信简单分析成绩没提高的原因,抑或是分享成绩提高名次进步带来的快乐,特别是最后换数据之后,因为集群很卡,为了避开使用的高峰,凌晨起来跑程序,记得7.24-25那几天,晚上就只睡3-4个小时,比赛的激烈程度真是只有经历过的人才懂,这个比赛能够坚持下来并且取得不错的成绩真的很辛苦,从S2开始到结束起码创建了1000+张的表格了吧,我们每一份特征都用一个新的Label标识,起码20+吧,我想如果这三个多月没有小鱼的鼓励和帮助,我一个人是肯定坚持不下来的,这三个多月的付出,其中的酸甜苦辣真的只有自己经历过了才知道,现在想想一切都是那么值得。
& & &特别感谢:本科同学宁大的清风,北理的Jark,浙大的算法大神黎老师,还有大葱、宣、主公、小猫等。
当然最最最最要感谢的是我的亲爱的给力靠谱队友小鱼~
6、推荐一些和比赛相关不错的博文
/post/#toc_1
/read/155044.html?spm=.0.0.c7Tm4P
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:290792次
积分:3813
积分:3813
排名:第7851名
原创:105篇
转载:69篇
评论:103条
(1)(2)(1)(1)(1)(5)(29)(1)(6)(6)(5)(6)(6)(8)(6)(2)(18)(2)(1)(6)(9)(3)(10)(12)(12)(3)(6)(1)(2)(3)解析阿里云大数据服务——ODPS
发表于 12:08|
作者郭雪梅
摘要:基于飞天的ODPS,对内是阿里集团30多个事业部唯一的大数据处理平台;对外,以RESTful API对外提供数据仓库、数据挖掘和其他数据应用服务。阿里云总裁王文彬为之站场,称其为“中国进入大数据时代的里程碑”。
阿里云有许多很好的技术,比如负载均衡SLB,关系型数据库RDS,云服务器ECS,开放存储服务OSS等。如今又增加了一款重磅云服务产品:基于飞天的,提供数据仓库、数据挖掘和其他数据应用等功能。7月14日,阿里云计算公司总裁及阿里巴巴集团副总裁王文彬(花名菲青)为之站场,并称之为“中国进入大数据时代的里程碑”。阿里云总裁王文彬(花名菲青)为ODPS站场对内统一:ODPS是阿里集团唯一的大数据处理平台从确定自主开发,到2014年1月,阿里云正式发布ODPS服务,整整五年。阿里云工程师们写下250万行代码,不断试错,不断优化,不断打磨。如今,对内:阿里小微金服(支付宝、小贷、保险、基金)已经全线迁入,数据魔方,阿里妈妈广告联盟,广告搜索,点击预测模型训练,淘宝指数,阿里无线,高德,中信21cn等业务都在其上,对外:药品电子监管系统、华大基因也已采用了ODPS。ODPS是阿里集团30多个事业部唯一的大数据处理平台更有意思的是,4月,为了更好地对ODPS平台上进行算法的调试、测试,阿里巴巴举办了基于ODPS的天池算法竞赛(“天池”平台基于阿里云ODPS的大数据开放平台,向学术界免费提供科研数据和数据处理服务,第一期开放三类科研数据集,包括用户购买成交记录、商品购买评论记录、商品浏览日志记录等,数据经过脱敏处理,所有数据均可由平台应用者使用)。竞赛的题目是:天猫推荐算法大赛开放竞赛数据:在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来对品牌下商品的购买行为。各大高校的参赛者在ODPS平台上进行算法的调试、测试。几个月下来,成绩斐然。阿里云相关负责人对CSDN云计算表示:最优秀的算法比天猫本身数据预测算法效率还高10%!正是有了这些真实落地的效果,王文彬才更有信心:“ODPS会是阿里集团30多个事业部唯一的大数据平台。这其中既包含已经完全迁入的小微金服,也包含电子商务(淘宝、天猫、聚划算、、、AliExpress)、智能物流骨干网(菜鸟物流)在内。涉及到几亿用户的数据,工作量极大,需要慢慢来做。但这一时间点,我相信很快。”这一计划被阿里内部称之为“登月计划”。其中还有一些小故事。接近阿里云的都知道:阿里云的云梯1,是基于Hadoop的;而云梯2才是自主开发的。阿里内部对于二者的技术争论由来已久。而大家不知道的是,2013年10月,为了融合阿里小贷和支付宝的数据,支付宝希望ODPS团队协助他们搬家,将支付宝数仓业务从Hadoop机群搬到ODPS上,这就是“登月1号项目”。2014年5月,登月1号项目成功,小微金服的全部数据业务开始基于ODPS发展。也正是阿里内部对于“稳定性,安全性,服务能力要求最高”的小微成功迁入,才有了后续覆盖搜索、广告、物流等多个BU的数据统一的计划,才有了“ODPS将成为承载阿里集团全部数据的统一处理平台”的实施。阿里内部对ODPS评价颇高。“从Oracle到Hadoop,我们解决了海量数据如何存储和分析的问题,阿里的数据业务不再受制于规模的瓶颈;从Hadoop到ODPS,更是一次质的飞跃,为后续大数据业务的开展扫清了障碍。登月计划共计划了20多个项目,涉及阿里巴巴和小微金服所有的事业部,覆盖集团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。登月计划的全面启动,标志着阿里集团自研的飞天+ODPS平台,从功能和性能上已经渐渐超越了Hadoop,阿里云的技术走在了世界前列。”对外拓展:主攻结构化数据和半结构化数据,未来支持更多框架在阿里云的产品规划中,基于飞天,有多类服务:离线的结构化数据存储和计算服务平台——ODPS (Open Data Processing Service),半结构化数据的实时随机读写服务——OTS(Open Table Service),实时流数据处理服务——OSPS(Open Stream Processing Service)等。ODPS的产品、用户和生态谈到ODPS能够处理什么类型的大数据,阿里云产品经理汤子楠表示:“ODPS最擅长处理结构化数据,比较擅长处理半结构数据,不能处理非结构数据(当然,最后这点会通过与开源技术合作及其他技术开发来拓展)。”具体来看ODPS的产品、用户和生态:产品:SQL、MapReduce、BSP、算法包;安全控制、分享机制用户:大企业——存储计算能力服务化,专注数据和业于务;生态:海量计算、准实时计算、流式计算;个人,大数据平民化,数据创新;数据生产者,数据消费者(广告、推荐、客满改进、模式创新),数据加工者(行业专家、咨询公司等)和服务与应用供应商(数据应用、BI等)其产品优势可以概括为5点:海量运算触手可得:用户不必关心数据规模增长带来的存储困难、运算时间延长等烦恼,ODPS可以根据用户的数据规模自动扩展机群的存储和计算能力,使用户专心于数据分析和挖掘,最大化发挥数据的价值。服务“开箱即用”:用户不必关心机群的搭建、配置和运维工作,仅需简单的几步操作,就可以在ODPS中上传数据、分析数据并得到分析结果。数据存储安全可靠:ODPS采用三重备份、读写请求鉴权、应用沙箱、系统沙箱等多层次数据存储和访问安全机制保护用户的数据:不丢失、不泄露、不被窃取。多用户协作:通过配置不同的数据访问策略,用户可以让组织中的多名数据分析师协同工作,并且每人仅能访问自己权限许可内的数据,在保障数据安全的前提下最大化工作效率。按量付费:ODPS根据用户实际的存储和计算消耗收费,最大化的降低用户的数据使用成本。汤子楠表示:“ODPS所有的功能是以RESTful API的形式对外提供,目前仅支持SQL,其他服务将后续逐一对外开放。而由于ODPS设计之初就是为了对外开放,做基于互联网的多租户的公共数据处理服务,安全性在ODPS的设计和实现中具有优先级很高。未来,ODPS还将开放更底层的逻辑计算单元,支持用户基于ODPS开发Spark、Pig、准实时、流处理等,真正成为在ODPS统一平台可以实现多种框架的大数据运算的乐趣。彻底解决现在数据要从不同集群中导来导入,且没有统一布局,数据处理和维护都的麻烦。”对于ODPS,阿里云的定位显然不仅是内部的数据统一平台,而且在外部,也将通过合作共建生态,为更多企业提供大数据服务。汤子楠分享了一个用户案例:药品电子监管平台,收集中国境内每盒药从生产、批发、零售环节的所有流通信息,每盒药都印刷了一个条形码“中国药品电子监管码”。药监部门利用这些流通信息追踪到中国市场上每批药品流向,追溯到零售环节任何一盒药品的来源。而伴随药品数量的急剧攀升和分析等新需求,原有的Oracle系统无法满足需要。新的数据平台基于OTS+ODPS两款产品,关键业务处理的平均延时降低100倍以上,成本大幅降低。除此以外,还有华大基因,其已经在ODPS上做了基因测序,耗时不到传统方式的十分之一。最后,ODPS的峰值是100PB数据处理6小时完成。按照使用量付费,存储1GB的数据,ODPS每个月大概是0.5元左右。技术:ODPS与BigQuery、Redshift+EMR、HPC的比较从技术上看,对ODPS还有两个疑问。阿里云的回复很到位。1.ODPS与Google BigQuery、Amazon有Redshift和EMR的比较?阿里云:Google的BigQuery,Amazon的Redshift和EMR,可以认为是ODPS的类似产品。在国内,ODPS是首款大数据存储和计算开放服务。ODPS和BigQuery的产品形态比较类似,比如都支持海量数据的存储和计算,都支持SQL语法等。两者的主要区别在于:1)底层技术实现不同。BigQuery基于Google自研的Dremel引擎,而ODPS则基于阿里云自研的飞天系统,两者在存储、任务调度、任务优化上有很多细节都不一样。2)BigQuery的主要应用场景是交互式BI分析,而ODPS的适用场景则广的多:目前已经开放的SQL功能主要用于数据仓库和日志分析;后续还将开放UDF和Map Reduce,支持用户编程的离线计算;ODPS准实时,支持交互式BI分析;ODPS流处理,支持实时计算等。同时,ODPS的数据授权体系功能更加丰富,使用更加灵活,可以同时满足数据拥有者、数据消费者和数据分析者的需要,ODPS未来可以成长为一个基于数据的生态系统的底层平台。3)BigQuery仅是一款产品,而ODPS则是阿里云产品线的一部分。除了ODPS之外,阿里云还有SLS、OTS等一系列大数据服务,组成一个综合的大数据解决方案,满足用户在大数据领域的多项需求。2.&ODPS与各个超算中心提供能力的区别?阿里云:1)超级计算机更适合计算密集型作业,如果是用MPI算核物理、天体物理、蛋白质折叠、求解普通PC上需要几千万年的迭代方程,用超级计算机可能更快。反过来,分布式集群Mapreduce适合IO密集型的作业,加上成本低,可以把集群规模搞得很大,因此最适合扫描过滤海量的数据,例如互联网行业的经典应用:为搜索引擎创建全网Web页面的索引。2)超级计算机造价更昂贵,维护成本也高,甚至每小时电费就得上万元。云计算是建立在低成本硬件+牛B的分布式操作系统设计上,在计算灵活性和多任务处理上远超超级计算机,可以更广泛的应用于商业领域,例如阿里云去年和国内的动画公司合作渲染出来的《昆塔》,计算量是《阿凡达》的四倍。随着国内经济的升级,很多造船、石油、材料、生物、天体物理、军事领域的计算需求都很强烈,这一类计算密集型任务,也可以通过云计算完成。ODPS是可以支撑科学运算的,阿里正在举办的大数据竞赛就依托于ODPS平台。参赛选手大量使用逻辑回归、随机森林这一类的数据挖掘算法。进一步简单解释一下,基于飞天系统,ODPS实现了Mapreduce(以及更高级的多阶段DAG)、Graph、MPI等编程模型在同一个计算集群上统一调度。因此除了
IO密集型的计算,还能支持计算密集型的迭代计算,例如随机梯度下降。不过目前阿里云ODPS只对外开放商用了SQL编程接口,更多接口例如Mapreduce、Graph等等还没有进入公测阶段,不过很快就会对外了。大数据技术生态中,ODPS所代表的的只是其中重要的一环,后续更为重要的是,强化伙伴能力,迅速在更多行业和应用中扎根。期待基于ODPS的扶植计划!
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章阿里公布大数据策略 发布商家数据平台生意参谋|阿里巴巴|大数据_新浪科技_新浪网
阿里公布大数据策略 发布商家数据平台生意参谋
今日,阿里大数据团队公开亮相,对未来大数据策略进行解读,并宣布首个商家统一数据平台——生意参谋全新亮相。
  新浪科技讯 12月15日晚间消息,上周宣布“大中台、小前台”组织新架构,凸显出大数据等领域的战略地位。今日,阿里大数据团队公开亮相,对未来大数据策略进行解读,并宣布首个商家统一数据平台——生意参谋全新亮相。
  阿里巴巴集团副总裁车品觉对阿里大数据策略作了系统解读。他认为,“零散的数据没有办法产生价值,所以第一步,需要对各类数据进行有效的采集和整合。”
  阿里方面称,阿里巴巴数据技术及产品团队已经建立起一套多来源、线上线下全渠道、多屏的数据采集体系,能够实现阿里集团、阿里系乃至全域大数据资产的采集通路。以商家数据体系为例,现有数据包含商家售前、售中、售后三大环节的八项业务过程。千余个数据指标覆盖商家开店装修、选品、营销运营、成交、仓储、物流、评价、售后服务等多项经营行为,贯穿商家业务全链路。
  在数据精确计算和调用方面,阿里建立了一套全集团的数据公共层,支持各类来源的个性化数据的计算、存储和调用,与数据公共层配合服务业务。阿里方面称,基于两个数据公共层及数据分发技术的应用,阿里的实时计算和实时推送的服务响应能力均可达到秒级。
  与此同时,在推进业务数据化的同时,阿里巴巴也在推进帮助商家实现数据业务化。
  阿里方面称,在技术层面,通过逻辑化的计算可以快速形成场景化的数据展示,数据可视化正在不断升级。在产品层面,两年前,大淘系的数据产品和工具多达38个,去年底缩减为15个,到今年年中进一步缩至9个。此次推出的生意参谋平台面向全体商家,提供一站式、个性化、可定制的商务决策体验。(天涯)
互联网媒体布局腾讯已占上风,阿里要赶上太难了,对于其最切合实...
乐视作为本次的投资方,本身除了长期受负债率高企的掣肘外,更大...
索尼、东芝、夏普、松下……这些曾显赫一时的日本科技企业正身处...
工信部规划称,2018年将建成一批全光纤网络城市,4G网络全面覆盖城市和乡村。
在以金钱、权利为标签的资本战场,女性特征似有些格格不入,而龙宇让人意外。您所在的位置: &
百度腾讯阿里,其大数据优劣势与策略分析(3)
百度腾讯阿里,其大数据优劣势与策略分析(3)
实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。
三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市
阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是&最值钱&的金数据。
数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。
&大数据&浪潮袭来,阿里提出&数据、金融和平台&战略。前所未有地重视起对数据的收集、挖掘和共享。马云在&退居&前动不动都对外提&数据&。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack
Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的&数据委员会&。
阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。
就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。
马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。
计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是&建立市场&,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。
有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。
阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux
Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux
Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。
总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的&交易&生意扩展到数据。让天下没有难做的&数据生意&。
移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。【编辑推荐】【责任编辑: TEL:(010)】
内容导航&第 1 页: &第 2 页: &第 3 页:
关于&&&&&&的更多文章
百度推出轻应用引起业界火热议论,收购91和推出轻应用标志着百度
随着云计算、物联网、大数据、移动互联网的大发展,你应该知道这些。
甲骨文全球大会于日至26日在美国旧金山举
微软公司于今年8月23日正式宣布,CEO史蒂夫?鲍尔默将
日,IBM宣布与首都在线签署公有云长期战略
信息安全风险评估理论研究日趋成熟,相关资料比较充分,但有关评估实际工作的参考资料很少。本书以信息安全风险评估实践为基础,
51CTO旗下网站

我要回帖

更多关于 数据库应用系统的特点 的文章

 

随机推荐