分享:专家说运营商大数据精准营销销要统计哪些数据

查看: 39961|回复: 39
【IT名人堂】专访数据挖掘大师谭磊:大数据掘金 如何让数据会说话?
认证徽章论坛徽章:127
欢迎大家做客第97期名人堂,我是主持人皮皮。有人把数据比作新的石油,认为大数据将彻底改变人类文明的发展脉络,重塑我们对于世界、对于生活的认知。互联网的对决不再止于速度,深度的较量将越演越烈,而如何挖掘数据这座巨大而未知的宝藏,让数据会说话,成为了时下企业扭转乾坤的关键突破口。
谭磊曾经说过,“数据是最底层的东西,它是0和1,是对事物最原始的记录,数据之上才有信息。”如果说内容为王是媒体行业经久不衰的秘诀,那么数据为王则是互联网企业决战大数据时代的枪支弹药。本期我们很荣幸邀请到了数据分析挖掘专家谭磊(社区ID:SeattleRaymond)做客名人堂,为我们分享大数据的真知灼见。
皮皮(Q1):谭老师,您好!我了解到您在美国微软总部服务了13年,后回国创业,可见您的人生阅历很丰富,能否和我们介绍下自己?在人生的道路上,您有哪些心得体会?能否和我们分享下您的故事?
谭磊(A1):我人生的前28年是非常顺利的,除了考初中和TOEFL、GRE之外,高中和大学是直升的,就连研究生班也是直升的。我在复旦读研一的时候,拿到了美国杜克大学的全额奖学金去读博士,在1995年我也是学校唯一一个通过微软面试去做实习的博士生。进了微软之后,我的仕途也一帆风顺,每年升一个级别,很快就开始带团队做项目了。
不过正因为一开始就特别顺利,在过去的二十年职业生涯中,我犯过非常多的错误。等到哪天我功成名就了,我会写一本《Raymond的99个错误》,希望大家能从我过往的失败中吸取教训。
在这里,我给大家分享一个小故事。小时候盖茨是我的偶像和榜样,当我刚进微软的时候,我就和大家说过,我进微软就是因为Bill Gates。哪一天他离开,也就是我离开的时候。结果在13年之后的2008年,在盖茨向全公司宣布他要离开微软的之前的几个小时,我群发邮件给我微软所有的朋友们,宣布那天是我在微软工作的最后一天,虽然当时我也并没有完全想好打算要做什么。
我一直都喜欢数字的游戏,在美国的时候经常去拉斯维加斯,一边在玩,一边在计算每种不同玩法对应的赌场胜率(odds)以及每笔赌注的投资回报率。和别的去赌场的人心态不同,在去之前我就定好一个数额,比如$5000,这笔钱会花在拉斯维加斯。“What happens in Vegas,Stay in Vegas.”如果输了,那就最多$5000。如果赢了,也在当地花掉,不带回来。这样的话, 赌场就变成了娱乐。你可以这么想,每小时花$30,在这么好的场地,请这么多人陪你一起玩,太合算了。注一下,如果玩每把$50的21点,平均每小时庄家会发60轮牌,按照正常的打法,赌场的胜率在51%,也就是平均每小时赌场会从我身上赚$30。
在美国让我最难以接受的地方就在于节奏太慢了。而反过来看中国,大家的想法很多,机会非常多,而有执行力的人也不少。我有时候在想,应该和唐骏或者熊明华他们一块儿回来的。不过换一种心态来想,一切都很释然了。我们今生在什么时间什么环境会遇上什么样的人,发生了什么事儿,是冥冥之中注定的,过去的一切都是积累。如果没有这些年在微软的沉淀和努力,我对于数据和技术的理解恐怕难以达到这么深的高度。如果之前没有在青岛和北京做过一段时间,我不会下决心杀回国内。如果不是在杭州结识了一群兄弟,我也不会在网络营销上有实际操作的经验。
皮皮(Q2):很多人认为数据是死的,人是活的,数据分析到底是一种艺术还是一门科学?谭磊(A2):准确地说,数据分析不只是艺术,也不只是科学,而是用来帮我们做决策的一种手段和方法。在现有数据上做数据分析,只要统计学毕业的同学就能胜任了,而随着今天各种工具的出现,具有数据分析和商业运营背景的同学也能做数据分析了。不过,要真正把数据分析做好,其终极目标是要做基于数据的运营。
谈到数据分析,我想举一个司空见惯的例子。一旦你曾经在搜索引擎上搜索过某一件东西,你的互联网世界里都将离不开这个东西的影子,它的广告图片会出现在你浏览的网站上。只因为你之前输入了搜索关键字,这些图片的针对性是很强的,而出现得太多就让人厌烦了。图片的出现是数据分析,而图片出现的频率可能就接近艺术了。
每个公司都有很多自己的数据,极少数公司能够充分用好这些数据,有些公司能够通过这些数据做一些分析,而绝大多数公司的数据都是沉睡在那里的。2014年大连的iTechClub峰会上,我和大家说过这样一个事情:其实每家公司,包括在座的百度、阿里、腾讯、360、乐视和京东等等,其实都需要一个mini-Raymond,把数据真正使用起来。这个意思并不是说我有多强,而是说当你想要使用数据的时候,你需要把技术、商业和运营都考虑在内。数据是基础,商业是土壤,而运营是在这之上,真正让数据产生价值的东西。单纯的数据科学家或者业务专家是不可能成为CDO的。
皮皮(Q3):在大数据的时代里,数据是一个让企业很纠结的话题,数据挖掘的世界既是地雷阵,同时又是金矿,如何在海量的数据里挖掘出有价值的数据为已所用?有没有捷径可走?能否结合一些实际场景为我们分享下数据挖掘的流程?谭磊(A3):在数据分析和数据挖掘中当然有捷径。我是双子座,捷径是我的专利。 我曾经帮一些朋友的企业做过咨询,教他们如何用好他们自己公司的数据,如何构建自己的数据仓库,采集哪些数据点和做什么样的分析。如果你有合适的人来做企业的数据分析,其实地雷阵的问题是可以避免的。
数据挖掘的基本流程其实是很简单的。虽然我写的两本关于大数据挖掘的书尽量用白话来写,还是有读者向我反馈说还是有难度。我打算过一段时间和朋友合作,写类似于《24小时读懂数据分析》这样的书,希望能让更多的朋友了解为什么数据挖掘是金矿,以及如何从数据中发现价值。
数据挖掘的过程是有一个大概的流程的,例如CRISP-DM就是数据挖掘流程的一个标准。我拿一个朋友的咖啡馆来举例,她要解决咖啡馆的盈利问题,然后就开始收集数据。收集的数据包括每天进什么样的原料、会有哪些客户群体以及每个客户点了哪些东西。做完数据收集之后的下一个步骤是做数据清洗,把其中属于她夫妇二人买单的部分清除掉。之后就是建立数据模型,看每种原料在哪些产品中是被用到的,以及它们的使用情况。然后她就发现鲜牛奶的使用和外部蛋糕的采购是有问题的,这就是数据挖掘的分析阶段。当在日常运营中通过一些规则处理了这两个问题,咖啡馆的盈利状况就有明显的改善,这就是数据在商业中的应用。
数据挖掘和数据分析的本质就在于商业运营上的价值,不以商业逻辑为重点的数据分析师毫无意义的。
皮皮(Q4):很多互联网企业都很看重广告这块市场,比如中国的百度和巨无霸Google,社交网站Facebook,还有广告联盟,它们是如何通过数据来做到精准营销的?谭磊(A4):从有互联网开始,一直到今天,广告收入一直都是互联网收入的主要来源,在你提到的百度、Google等公司中,广告收入都占到90%以上。我们以Google为例,Google的收入主要来源是AdSense和AdWords,前者是Google网站联盟的广告,而后者是在Google上的搜索排名。只要在浏览器上有Google的cookie存在,当你用Google做搜索的时候,Google后台会记录你的搜索行为,那么当你访问的网站上的广告是由Google提供的时候,Google就能判断你是谁,根据你之前搜索的结果,给你推送相应的广告。所以说跨网站精准营销的基础第一在于海量的网站基数和海量的广告主。比如说当你在Google上搜索“压缩机”,而没有对应的广告主,那么无论你以后去到哪一个网站上,出现“压缩机”图片的可能性几乎为零。而跨网站精准营销的基础之二是在于cookie。大家不妨试一下,当你保持每天清除浏览器cookie的习惯时,那些到处跟随你的网站就不见了。
其实在这个领域上,存在两个问题。第一个问题是隐私的问题,也就是这些公司是否能够用他们收集到的客户的信息来做定向的广告推送,例如当我们能判断一个客户很可能怀孕的时候向她推送怀孕相关产品这件事情是否侵犯了她的隐私?第二个问题是碎片的问题,这是我和1号店CTO韩军同学讨论过的问题。每个人在一个网站上的时间其实不是他们的全部,而只是生命中的一个片段。完全分析出一个人的具体情况是不可能的,只能把顾客分成不同的群组。
皮皮(Q5):电商坐拥互联网行业最丰富的用户数据金矿,能从中挖掘出真金白银的屈指可数。双十一能成为时下IT圈的弄潮儿,离不开阿里利用大数据个性化推荐的法宝,而亚马逊可以领跑美国电子商务,也得益于它们的个性化推荐系统。我相信有很多从事电商行业的朋友们,很辛苦但赚不到钱,这里面到底有哪些窍门,能否支支招?谭磊(A5):个性化推荐引擎的原理其实非常简单,这里用到的协同过滤和关联分析的法则归根到底就是把商品推荐给“alike“的人。我以前说过,”like是像,like是喜欢“。这是数据挖掘的基础,你要把alike的产品推荐给alike的人。这也是数据挖掘中”物以类聚人以群分“的概念。当你能够充分理解这个概念的时候,你就学会了个性化推荐。
这里的个性化推荐说起来简单,做起来就没那么容易了。通过用户经常访问的页面和曾经购买过的产品我们可以大概收集到客户的年龄、性别、购物地点、购物时段、大致页面停留时间等数据。同时我们可以通过对商品上的数据点做分析,从而找到匹配的客户和商品。 我们举个小的例子来说明个性化推荐是不能盲目执行的。假使说某个客户刚买了一件羽绒服,那么和这件羽绒服最类似的产品是另外一件羽绒服。那么推送这件羽绒服的广告对这个客户有意义吗?显然是完全没有意义的。而话又说回来,如果某个美女购买的是某一款韩版上衣,你完全可以推送另外一款韩版上衣,因为对于女生来讲,衣服是永远不嫌多的。
皮皮(Q6):如果说,2013年是互联网金融元年,那么2014年则很可能会以互联网金融监管元年记入中国商业史。在这股热潮的推动下,我们习惯了用微信、支付宝来买理财。正所谓得屌丝者得天下,怎么用数据来赚钱?能否和我们分享下互联网金融下,怎么用数据来说话?谭磊(A6):到目前为止,几乎每一个在中国的互联网上成功的产品都是依靠草根成功的,微信、支付宝和360都是。这里可能没有太多数据的概念可言。
而通过数据做互联网金融在美国有一个不错的案例是Zest Finance,使用了大数据技术来评估个人贷款的信贷风险指数,特别是为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。Zest Finance是由前Google首席信息官及工程副总裁Douglas Merrill和前Capital One公司主管Shawn Budde一起合作的结果。Capital One可以说是美国的信用卡公司中最会运用数据的公司。他们相信不仅仅是银行的内部数据,一切数据都可以是信用数据,实际上,Zest Finance大量采集用户在社会媒体上留下的数据,从这些数据中对用户的信用进行判断,预测用户拖延还贷的概率。Zest Finance通过这种分析,能够在低于行业平均拖延还贷率的条件下,进行更快更低成本的贷款发放。
谭磊个人简介:浙江省企业信息化促进会互联网分会会长,英特尔公司特邀大数据顾问。资深技术管理、数据分析挖掘专家,在美国微软总部服务13年。 《New Internet-大数据挖掘》、《数据掘金-电商数据运营》、《盛宴背后-互联网金融揭秘》三本书的作者。本期名人堂欢迎大家踊跃发言,截止日,我们将由谭磊老师评选活跃会员3名,赠送技术图书一本。更多嘉宾信息,请关注名人堂栏目:
, , , , , , , , ,
论坛徽章:0
谢谢分享,受益良多 问题是,从事大数据分析需要掌握哪些技能呢?
本人从事过一些BI展示层开发,用过一些工具譬如微策略以及fusion chart 组件,db2数据库建模以及存储过程清洗数据
接下来应该要往etl上提升还是应该学习数据挖掘理论,比较迷茫
论坛徽章:57
普通it人员如何转行数据分析it人员?
认证徽章论坛徽章:9
懂技术的不懂业务,懂业务的搞不清技术,这才是数据挖掘的难于铺开的症结。&&我个人觉得,能够把工具简单化、实用化,或许可以得到更好的推广,虽然细细思量之后,又会感叹,业务模型不通何以简化工具呢?&&纠结。
论坛徽章:0
SeattleRaymond 发表于
在我看来,作为数据分析的同业者,数据挖掘的基本概念是你首先必须要理解的,而不是单纯对于名词的死记硬 ...
谢谢谭老师回答,请问有没有相关书籍可以介绍1,2本?
另外是否有关于从事数据分析职业含金量比较高的培训考证?
据我所知有个CDA,还有个CPDA ,不知道谭老师的看法?
论坛徽章:0
受益匪浅!昨天刚刚听老师提到有关数据挖掘的内容,今天就能赶上这篇帖子,真好。作为一名在校大学生,我更想知道赶上了大数据时代的我们,应该如何选择了解进入这一行业。相比于各位前辈和老师,我处在一个初学者的状态,连一个正确的方向都把握不好。见识的越多越觉得诚惶诚恐,不知道怎么才能赶上这个潮流。希望能得到指点!谢谢了
论坛徽章:6
说的挺好的,目前在内地,很多中小型公司还没有把数据分析用好,数据分析需要的人才比较多,至少包括数据分析软件开发人才和商务运营人才。成本来说还是挺高的。
招聘 : 论坛徽章:83
Data Mining包含哪些主要功能?
Data Mining 运用了哪些理论与技术?&&
Data Mining在各领域的应用情形为何?
论坛徽章:1
数据挖掘和数据分析的本质就在于商业运营上的价值,不以商业逻辑为重点的数据分析师毫无意义的。
论坛徽章:0
lhyangel2012 发表于
说的挺好的,目前在内地,很多中小型公司还没有把数据分析用好,数据分析需要的人才比较多,至少包括数据分 ...
关键还是在人才。能做数据分析的人不少,加上商业的考量就少了。
认证徽章论坛徽章:2
没接触过挖掘,也顶起
认证徽章论坛徽章:55
這個東東是重要,但如何呈現。
论坛徽章:6
“数据是基础,商业是土壤,而运营是在这之上,真正让数据产生价值的东西。”
论坛徽章:36
数据挖掘技术哪家强?
认证徽章论坛徽章:127
谭老师的人生很精彩,给我们屌丝族树立了一个很好的榜样。
itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有    
 北京市公安局海淀分局网监中心备案编号:10 广播电视节目制作经营许可证:编号(京)字第1149号关于大数据精准营销
这些你都知道吗?
在如今这个信息化爆炸的时代,信息总量呈现爆炸式增长,大数据技术也随之日益更新。随之而来的大数据营销也火爆发展起来。
  在如今这个信息化爆炸的时代,信息总量呈现爆炸式增长,大数据技术也随之日益更新。随之而来的大数据营销也火爆发展起来。  但究竟什么是大数据营销呢?    来自陕西华信智原的胡老师给出了答案:“大数据营销首先是要依托多平台的数据采集及大数据技术的分析及预测能力,使企业的营销更加精准,从而为企业带来更高的投资回报率。”    听到这里,小伙伴们对大数据营销是否有了一定的概念呢?    总而言之,就是在适合的时间,把你希望推送给客户的东西,以适合的载体,推动给适合的人群。    但在这之前,大数据营销首先要汇聚大量的数据,这样才能为企业提供精准决策做出正确判断。同时通过各个渠道的数据分析,还能对用户的行为习惯做出分析,从而为用户提供更为准确的服务。这就是大数据营销的价值所在。    这是对大数据营销的总体概述。对于企业来说,如何应用好大数据进行营销,要根据其具体情况而言。相信未来不久,随着大数据的应用和普及,大数据精准营销师的概念也会越来越深入人心,发展前途更是不可估量。
发现资讯的价值
中研研究院
掌握产业最新情报
中研网是中国领先的综合经济门户,聚焦产业、科技、创新等研究领域,致力于为中高端人士提供最具权威性的产业资讯。每天对全球产业经济新闻进行及时追踪报道,并对热点行业专题探讨及深入评析。以独到的专业视角,全力打造中国权威的经济研究、决策支持平台!
广告、内容合作请点这里:
热点图文分析
【版权及免责声明】凡注明"转载来源"的作品,均转载自其它媒体,转载目的在于传递更多的信息,并不代表本网赞同其观点和对其真实性负责。中研网倡导尊重与保护知识产权,如发现本站文章存在内容、版权或其它问题,
烦请联系:、8,我们将及时沟通与处理。
行业研究院
《年版自助纯水机项目可行性研究报告》为中研1
《年版自行车项目可行性研究报告》为中研普华1
《年版资产管理项目可行性研究报告》为中研普199被浏览22,952分享邀请回答6添加评论分享收藏感谢收起372 条评论分享收藏感谢收起一线专家谈谈:数据挖掘在实际领域中的那些事儿-业界动态-@大数据资讯
你好,游客
一线专家谈谈:数据挖掘在实际领域中的那些事儿
来源:InfoQ&
作者:佘伟
  大家好,我是明略数据的佘伟。今天非常荣幸能给大家分享明略数据在大方面做的一些事情。
  企业中的数据挖掘
  我们先来看看在企业中数据挖掘都是怎么做的,以及有着哪些问题。
  上图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在环境下,这个流程依然适用。
  理解商业问题。这需要大数据科学家和行业专业,以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。如果不理解业务就贸然开做,最后的项目一定是失败的。
  分析数据。当明确了业务问题之后,我们就需要去分析数据,看看到底哪些数据能够支撑我们的业务,用哪些数据去解决问题。在这个阶段,我们可能发现数据不足,或者数据质量太差,这个时候就可能要寻求第三方数据的帮助,或者规划如何去采集更多的数据了。
  数据挖掘。前两步都是在做数据挖掘前的准备,当业务明略,数据可用时,我们就正式开始数据挖掘了。
  3.1提取特征
  首先我们要对数据进行处理, 从数据中提取特征 。这是数据挖掘非常关键的一步,特征的好坏直接影响最终模型的效果。在数据挖掘过程中,算法其实并不是最主要的因素,影响效果最直接的因素就是特征。
  良好的特征需要有非常好的区分度,只有这些特征,才能很好的去解决问题。举个例子,我们要辨别一个西瓜是好是坏,可能颜色是一个特征,条纹,重量,瓜蒂也是特征。但是,大家都知道西瓜一般都是绿色的,所以用绿色去作为判别西瓜好坏是没有区分度的。而条纹,重量,瓜蒂是判别一个西瓜是好是坏非常重要的因素,因此他们是好特征。
  我们在解决不同问题时,所用的特征是不一样的。可能在解决某个问题有用的特征在解决另外一个问题时就不具备区分度。因此,我们必须紧密的联系业务,去选择合适的特征。
  在提取特征时,因为我们是大数据挖掘,所以要使用大数据技术去从原始数据中提取特征。这需要大数据科学家有着非常丰富的技能。
  3.2建立模型
  当特征提取完毕后,我们就需要去应用算法建立模型了。在实际的建模过程中,由于数据量过于庞大,算法训练过程往往十分缓慢,如何 加速算法计算速度 ,是一个非常突出的问题。
  此外,由于传统的数据挖掘算法都是针对小数据集的,当数据规模到了一台服务器无法处理的程度,传统的数据挖掘算法就不再使用。此时,我们需要有新的数据挖掘技术来支持大数据上的数据挖掘。
  当模型建立完成之后,我们需要对模型进行评估,来确定模型效果。此时最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时,我们要回到特征提取,建模过程来不断的迭代,甚至可能要重新分析业务和数据。
  3.3后期工作
  当一个效果非常好的模型建立完毕了,我们的数据挖掘就结束了吗?传统的数据挖掘软件往往只做到模型建立这一步,但是在模型建立完成之后还有很多工作要做。我们如何将模型在生产系统中使用起来,如何去管理、运行、维护、扩展模型。
  我们先来看看DataInsight对业务的支持。
  可以将DataInsight看做一个模型运行的平台。他提供一套分布式的模型执行引擎。所有通过DataInsight建立的模型都可以在这个分布式执行引擎中运行。
  在执行引擎之上,DataInsight还提供了多个系统供不同业务使用。我们有支持实时分析业务的实时分析系统,有支持离线批处理业务的离线分析系统,还有规则引擎系统,可以让用户的业务人员去通过规则对模型进行修正。
  用户需要针对不同的业务去建立不同的模型,这个建模过程可以由用户自己完成,也可以由明略的大数据科学家去完成。建立好的模型以插件的形式插入到DataInsight中去,方便模型的管理和扩展。
  用户的业务系统会通过API和DataInsight进行通信,来运行或者更新DataInsight中插入的模型。
  一个典型的DataInsight模型运行过程如下:用户通过API调用DataInsight,在请求中指定模型,模型的输入和模型的输出。DataInsight会将数据从数据源中取出,送入模型,并且将模型分成多个步骤,并行化的在分布式执行引擎中运行。当模型运行完毕后,结果将送入用户指定的目的数据库中。这样,用户的应用系统就可以直接从目的数据库中获得模型运行的最新结果了。
  DataInsight中将解决客户业务问题的模型成为业务模型,或者应用。DataInsight对业务模型也进行了一定层次的抽象。每个业务模型都是由若干步骤组成的。每个步骤被称作一个算子。
  上图是一个文本分类的业务模型,其解决的问题是将若干文本进行分类。例如我们有很多文章,我们要对每篇文章的情感进行分类,就可以使用这个模型。
  我们将文本分类模型抽象为很多算子的组合。每个算子都是对数据进行了某种转换,将一组输入转化为一组输出。这个转化过程可能是对数据进行的预处理,也可能是某种机器学习算法。
  每个算子都有输入和输出,且算子的输出可以作为另外一个算子的输入。这样,整个业务模型就抽象成了一个有向无环图(DAG)。DataInsight在执行模型时,会去调度模型中的每个算子,将适合分布式计算的算子送入不同的执行容器中去运行,加速了整个模型的计算速度。
  DataInsight总体的体系架构见下图:
  (点击放大图像)
  下面我们介绍一下明略在各个领域中的一些案例。由于时间关系,我这里只举两个案例。
  一是精准营销方面 。明略是从秒针系统拆分出来的,秒针系统是一家以互联网精准营销为主要业务的公司,因此明略在精准营销方面有着接近10年的积累。
  首先,明略的大数据平台MDP会将企业各种自由数据,包括CRM数据、交易行为数据以及官网数据等,和第三方数据一起收集起来,并对这些数据进行关联和打通,一起存储到大数据平台MDP中去。
  我们针对企业不同的业务,建立多个模型,例如智能推荐模型,用户画像模型,消费预测模型,商圈聚类模型等等,这些模型作为插件插入到我们的大数据挖掘平台DataInsight中去。
  我们可以将原始数据从MDP中取出,进过DataInsight中模型的计算之后,生成最终的结果数据,结果数据将送入用户画像系统和推荐系统的离线部分。
  用户的推荐系统分为在线和离线两个部分,离线推荐的结果就是DataInsight中计算出来的结果。在线推荐系统将会接收一个在线的推荐请求,通过客户画像系统和离线推荐结果,并结合当时的一些场景,共同计算出最终向用户推荐的物品。
  明略的精准营销系统已经应用到了个性化推荐、精准营销、用户洞察、广告投放等多个领域,并取得了良好的效果。
  智能推荐算法
  和传统的协同过滤算法不一样,这个算法是采用了分类的思想,通过分类的方法来实现推荐的。
  首先,在进行推荐之前,我们必须明确推荐的目标。那就是向用户推荐用户感兴趣的物品。这里的物品可以是商品,也可以是广告,甚至是文章、电影、音乐等等。
  然后我们需要去寻找解决这个问题所需的数据。我们有物品内容数据库,用户CRM数据库,以及用户行为数据。
  解决了目标和数据之后,我们就需要采集一批有标注的样本。因为是采用的分类算法,这是有监督的算法,所以标注样本是建模的第一步工作。标注就是通过人工来判定用户是否对某个物品感兴趣。
  标注问题解决后,我们就需要从数据中提取特征。我们的特征分为3类: 物品自身属性 ,比如我们推荐的是手机,手机型号,手机价格,手机颜色都是物品的自身属性。其次,我们要提取 人的属性 ,比如人的性别、年龄、收入、教育程度一类。最后,我们还需要知道 人和物品的交互关系 ,他是浏览过商品还是加入过购物车,还是点击过商品,甚至购买过该商品。除了和推荐的商品之间的关系之外,我们还可以将用户和其他商品之间的关系也作为特征。
  这样,我们就可以通过分类算法去建立模型了。常用的分类算法我们都可以尝试,诸如GBDT,逻辑回归,SVM等等。
  当模型建立完毕之后,我们就可以得到分类结果了。分类结果是某用户对某商品是否感兴趣,以及感兴趣的程度。感兴趣的程度我们可以通过概率来表示。
  有了分类结果还不是我们最终的推荐结果。我们根据分类概率对结果进行排序,最后选出TopK个结果作为最终结果返回。
  设备诊断方案
  我们的第二个案例是有关设备诊断方案的。
  我们知道,工业4.0是目前比较火热的一个话题。而设备诊断正是工业4.0中非常重要的一个应用。
  设备诊断又分为 故障诊断 和 故障预测 两大类。故障诊断是当一个设备出现故障,我们需要辨别该故障的类型。故障预测是我们要预测出某个设备在未来会不会出现故障。这是两个截然不同的问题,但是处理的方法是类似的。
  故障诊断和故障预测已经在多个行业中得到应用,并且已经取得了非常突出的效果。
  明略的故障诊断方案如下图:
  首先,各种设备的数据通过ETL汇聚进大数据平台中去。这些数据包括传感器实时数据,设备历史数据,时间历史数据等等。
  然后,在DataInsight中建立故障诊断和故障预测模型,来对原始的数据进行分析,并得到诊断和预测结果。
  DataInsight中的模型会部署到生产系统中去,通过API和故障诊断和故障预测应用进行交互,提供最终的分析结果给到应用,在应用中根据分析结果进行各种统计和可视化的展现。
  进行故障诊断和故障预测建模有两种方式,其一是传统的方式,其二是通过深度学习的方式。
  这个过程中首先我们要对故障进行标注。对于故障诊断,我们要标注的是何种类型的故障,对于故障预测,我们要标注的是有没有发生故障。标注的工作是专业性极强的工作,一般需要用户的专家来进行标注。
  对于传统方法而言,最复杂的部分是特征选取。上文我们也讲到,只有那些有强区分度的特征才能有效的支持最终的模型。所以,需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化,将人的知识变为机器能够处理的方法。这是非常困难的。
  当特征提取完了之后,我们会采用分类算法来训练模型,最终得到故障诊断和故障预测的结果。
  深度学习
  在传统方法之外,我们还可以通过深度学习的方法来进行故障的诊断和预测,深度学习方法示意图如下:
  这个过程中首先我们要对故障进行标注。对于故障诊断,我们要标注的是何种类型的故障,对于故障预测,我们要标注的是有没有发生故障。标注的工作是专业性极强的工作,一般需要用户的专家来进行标注。
  对于传统方法而言,最复杂的部分是特征选取。上文我们也讲到,只有那些有强区分度的特征才能有效的支持最终的模型。所以,需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化,将人的知识变为机器能够处理的方法。这是非常困难的。
  当特征提取完了之后,我们会采用分类算法来训练模型,最终得到故障诊断和故障预测的结果。
  深度学习
  在传统方法之外,我们还可以通过深度学习的方法来进行故障的诊断和预测,深度学习方法示意图如下:
  比起传统的方法,故障标注这一步是省不掉的,因为我们用的还是一个有监督的方法,这个方法必须要有一批标注好的样本。
  和传统方法不一样的是,我们直接将样本送入深度学习算法,常用的如卷积神经网络去进行训练,来得到最终的故障诊断和预测的结果。
  相比传统方法,深度学习方法省却了特征提取的过程。我们通过深度学习算法直接从原始数据中学习,省却了专家指导的过程。深度学习方法甚至能够学习到专家所不知道,或者在专家潜意识内但无法表达出来的特征。通过深度学习算法出来的模型,其效果往往好于传统方法的模型。
  但是,深度学习算法对 数据量的要求 非常大。只有有大量训练样本才能使用深度学习。这在现实的工作中可能是一个问题。
  Q1:数据互联行业主要是指哪些业务?
  A1:数据互联是明略将第三方数据引入到企业中和企业自有数据结合起来去做数据挖掘的业务,这个业务需要对第三方数据如何与企业数据融合,去进行数据挖掘有比较深的理解.
  简单的说,就是帮助用户分析需要什么样的数据,以及从何处去获得这些数据,外部数据和内部数据如何打通,如何去数据挖掘.
  Q2:请问领域知识和数据专业知识哪个在实际工作中起的作用更大?
  A2:领域知识和数据专业知识应用的场景不一样。在进行数据挖掘之前,我们首先需要有领域知识。必须明白要解决的问题是什么。只有有了领域知识,并且有数据知识,才能把业务转化为数据挖掘的问题,在进行数据挖掘过程中,数据挖掘知识可能是更关键的,因为你要知道如何去解决这个问题。但是,进行数据挖掘时,还必须根据业务对模型进行调整。
  刚才我也说了,模型调优必须建立合理的评价指标。这个评价指标根据不同的业务可能是不一样的。所以必须有业务知识才能知道如何去调优,才能知道什么样的模型是符合业务需要的,所以,在实际的数据挖掘过程中,领域知识和数据挖掘专业知识都是非常重要的,如果缺乏了任何一种,可能都很难取得比较好的效果。另外大数据挖掘中大数据处理能力也很重要,如果不会处理大数据,或者没有良好的编程能力,也是很难做好的.
  Q3:请问一下明略大数据在特征工程上有哪些比较好的经验呢?
  A3:其实特征工程是一个非常dirty的活,需要大量的尝试性工作,明略的经验就是,在做特征工程时,了解业务是第一位,然后需要深入的去调查客户的每一张表,搞明白每一张表的每一个字段,以及字段间的关联关系,我们在实际工作中,经常要调研几百张表去找到我们需要的数据,此外,作为一个合格的数据挖掘人员,或者数据科学家,敏锐力非常重要,能够结合业务知道可以从数据中提取哪些特征。特征提取出来之后,是否是一个好的特征其实是不知道的。我们可以大胆的尝试,多选取一些特征过来。然后在通过特征选择去进行筛选。特征工程是实际建模中最耗人力的过程。我们建模大概70-80%的时间都耗费在这个上面。
  Q4:请问在进行数据挖掘之前的怎么解决数据质量问题?
  A4:坦白的说,数据质量也是困扰我们的问题,目前我们遇到的客户,坦白的说数据很多都是碎片化的。可能是因为之前他们忽略了某些数据的收集,或者他们的数据只是总体样本的一小部分,对于第一种客户,我们会帮助他们制定如何去收集更多的数据,只有数据有了积累,数据质量问题才会解决。对于第二种客户,我们会帮助引入第三方数据,用第三方数据来补充客户现有的数据,大数据的数据质量差是有目共睹的,但是,正是由于数据量大,数据类型多,我们才能从大数据的沙子中挖到金子。如果传统数据是富矿石,大数据就是贫矿石,大数据数据只能以量去取代质。
  Q5:目前未回答问题中排名最高的是这个:二分类分类算法中,负面情况占比很小,训练集数据负面数据如何按比例分?训练集需要调高负面数据的比例吗?对算法有什么影响?
  A5:分类问题中对正负样本的平衡是必须的,这个也是影响最后分类结果的一个很重要的因素,如果样本不平衡,能做的事情是样本增益和样本抽样。比如正样本远远小于负样本,可以对正样本进行复制,或者加上随机扰动来扩充正样本,或者直接对负样本进行抽样。达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比1:5左右比较适合,达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比1:5左右比较适合。
相关新闻 & & &
& (12/28/:06)
& (11/17/:33)
& (12/28/:54)
& (11/24/:48)
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款

我要回帖

更多关于 大数据精准营销 的文章

 

随机推荐