如何判断知识付费 知乎内容是否有效运营推广 知乎

做了那么多营销,为什么没有效果? - 知乎3265被浏览90141分享邀请回答/r/L0jx6SLE3n_hrWaK9x09 (二维码自动识别)一生最大乐趣是研究如何【卖火】产品。文章全部原创,不谈理论,只讲方法,每周出炉一篇长文。别人喜欢买买买,我们喜欢卖卖卖!2K72 条评论分享收藏感谢收起6811 条评论分享收藏感谢收起查看更多回答高级运营和普通运营有哪些区别? - 知乎27363被浏览1294117分享邀请回答9.1K353 条评论分享收藏感谢收起61153 条评论分享收藏感谢收起查看更多回答上下架应用
只需一步,快速开始
我在知乎做运营—— 一个知乎离职妹子的感悟
离开知乎3年了。知乎越来越好了。虽然我离开的日子都已不活跃,也没有多少沉淀的关系,但是知乎的产品和运营机制,还是能给作者激励的。对历史内容和人的传播:我不活跃的几年里,还是每天新增很多的粉丝,还有无数
离开知乎3年了。知乎越来越好了。虽然我离开的日子都已不活跃,也没有多少沉淀的关系,但是知乎的产品和运营机制,还是能给作者激励的。对历史内容和人的传播:我不活跃的几年里,还是每天新增很多的粉丝,还有无数的私信和消息。而且这些都不是原有粉丝给我的消息。我知道这是作为曾经写过好答案的作者,知乎有机制让他们再次曝光:1、新用户注册时的推荐:用户选择感兴趣的领域之后,会推荐领域下的优秀回答者。2、好的内容并不依赖于时效性强的传播:用户搜索的时候总会再次看到,而知乎的搜索框是那么显眼,话题页面除了时间线的内容,还有最佳问答,最佳回答者3、以上都会带来再次的传播,首页时间线又发挥作用。对优秀新人的激励:在知乎,只要你真的能写出一个好答案,即使你是一个普通人,没什么粉丝,获得曝光并不难,因为:产品机制上加大新人被认可的可能性:1、问题的关注者会给你赞同,带来传播2、你被粉丝大的关注者赞同并不是一个小概率事件,因为内容和关系(人)的绑定不是特别强,一个大V,也有自己不擅长的领域,也会去赞同其他领域的好答案运营策略+算法推荐:让新人的优秀答案更多的曝光,包括人工赞同、推荐到发现页面,官方微博传播等。1、早期运营的时候,为了让优秀的新人能被认可,我是人肉识别器,看所有的新增答案,看到好答案马上推荐给整个知乎团队,后来我们发展了各个领域的志愿者去发掘好答案,发现优秀新人。2、再后来,我们努力让机器算法来帮我们识别这些潜在的优质内容。社区的用户,总是流动的,再核心的用户,也可能会流失,而有些流失,并不是平台的错。只是人生阶段不同,有的人,一定会离开。或者会在某些时间离开。运营过论坛的朋友,做过版主的朋友一定理解我说的。所以,不断地发现新鲜血液,让优秀的新人得到认可,是非常重要的。前几天闺蜜圈的创始人Richard让我体验一下闺蜜圈。我是一个在闺蜜圈完全无粉丝的用户。首次发贴居然瞬间好几个评论。我跟Richard说这很赞。他说他们在新人激励上下了很大功夫的。通过算法等,给新人更多的曝光,帮助他们在一开始融入社区。我常常在朋友圈感叹公众号粉丝增长很难。我不是为我自己感叹。作为一个研究数据的人,我太知道大盘的数据如何。我知道Fenng帮我在他的小道消息推荐我,不只是纯粹个人情谊,他理解我说的,公众号运营很难。他常常在公众号里帮创业者和一些自媒体推荐,他知道,这是他为兄弟们做的一点微薄之力,但是却意义重大。前不久pony的一个朋友开始运营一个公众号,挺好的一个号,叫做“T阿姨”,她在微信问我们,为什么这么久粉丝才300,应该怎样做增加粉丝。我看了真心无奈,我觉得我实在是对不起她,平台还没有能力帮优秀的新帐号增加粉丝。她第一次问的时候粉丝是100,她觉得粉丝好少,虽然她说绝不因为粉丝少而不继续创造。那时候我跟她说,你已经打败很多人了,已经很了不起了。我不是安慰你,是这个事情确实很难。有人跟我说,和菜头的槽边往事,Fenng的小道消息,这些优秀帐号的粉丝不是很多吗?人应该踏实写文章写上10年。是的,他们的粉丝是靠这么多年积累下来的。但是,新人,并不需要立刻拥有跟他们一样的粉丝,他们只是需要还一点点的鼓励而已。我们还没有给到。识别优质内容,不是一条容易的路。我一直在跟数据挖掘的同事,试图找到一套好的算法。然而,从数据上我也能知道,各项数据指标都特别好的文章,并不一定就是和菜头和Fenng的这些文章。用户更喜欢轻松一刻的笑话段子,安慰自己的鸡汤(鸡汤大家都可能引起争议,我可能觉得连岳的情感鸡汤才是好的鸡汤,连岳可能觉得有些情感类鸡汤简直是垃圾),还有那些无法分辨的谣言……在知乎的时候,我们一直有意识地控制两性问答的内容,其实也不能说是控制,只是不去鼓励。甚至要以身作则去写一个我们理解的优质的两性回答来告诉社区用户,这是我们认为的好内容。两性是一个大众话题,也是一个超级热门的话题,用户非常喜欢,不能否认。只是这是一个容易水化的领域,因为所有人都可以随便说一句。在我看来,知乎真的是非常努力,在建立大家对优质内容的一致态度。你可以说我们非常主观。但是,这是一种价值观。这倒不是对领域的歧视,我们相信所有领域都有好内容,只是试图在证明,优质内容有一些通用的特质,最后,还是用户去判断。然而知乎的特色在于,让用户判断的时候,用户也是有权重的。早期的优秀用户,已经是社区赋予的优质的代表。因此有了一套基础的模型。他们的赞同、关注、“没有帮助”、举报都会影响相关的问题、回答、回答者(用户)。因此我不得不再提起人和关系在社区中的重要性。不只是激励。也是数据挖掘中算法的重要因素。但是这都需要首先有一套体系。弱关系对UGC的激励很重要:这两年知乎搞了很多线下活动。比起我在的时候多了很多,也成熟很多。因为,基于兴趣的弱关系,真的非常重要。来自弱关系的认可,是很强大的激励,有时候比金钱利益激励还重要。毕竟,大部分人的优秀内容,能带来的金钱收益,跟他们本职工作能获得的金钱相比,实在太少,诱惑不了他们。尤其是,那些专家级别的人,怎么会缺钱呢?知乎重视人,答案是来自可信的人,人因为答案而可信。这两点互相促进。也因此,知乎成就了很多人的职业发展,很多美好姻缘。没有办法想象每一个内容创作者在一个孤岛上,不能相互发现的痛苦。blog时代,还有超链接,wordpress blog 引用一下会发一个通知,其他blog也能通过访问来源追踪到引用的文章。互相发现,互相讨论,互相认可,不断拓展同个兴趣圈子。这些,都激励着bloggers。然而同样是健身爱好者,我是不能以我的公众号身份去结识另外一个同样写健身内容的作者的。对方看不到我的内容,无法识别我跟他是一样的爱好,我们不能快速建立信任,不能快速交流。关系对于内容的激励,多年前我在知乎上写过答案:人这个属性对于获得有效的答案很重要。我所理解的“有效的”答案:是这个答案在客观上确实是权威可信的(业内专家达人都认可的)是这个答案在主观上是你想了解的(比如某个当事人的看法和观点、你信任的人的看法和观点等) 是快速及时的获取基于以上对“有效的答案”的定义,我认为:对一个答案的权威的判断,需要对回答的人的专业背景的了解,也需要对投票的人的专业权威性的判断(当然这些都可以考虑逐渐用算法来实现,不一定要靠用户自己慢慢了解)有时候我们想挖掘的是某个人的隐形知识、以及基于他们经历的一些东西,或者说有时候我们就只是想了解某类人、某个人的看法,那么即使对于同一个问题的回答,A的回答对于我的意义,与B的回答对于我的意义,有很大的不同知道哪些人能回答你的问题,很重要。尤其是当你在一个陌生领域,你对某个知识体系本来就有缺口的时候,知道向谁提问,邀请谁来回答,很大程度能帮助你得到更多更多你想知道的答案(几乎是知识的所有维度:know-what知道什么是什么、know-how知道如何怎样做、know-why知道为什么以及know-who知道谁知道和知道了解某个事情的渠道)另外,对于知道提问者是谁,有时候也很重要。因为这有助于帮助回答的人了解TA为什么会提出这样一个问题,TA真正想要的是什么答案,能更有效地去回答。有时候即使问题的补充说明再详细,提问者的背景也还是会有不一样的帮助。其次来看“人与人的关系要不要强化”?我觉得人与人之间的关系很重要,这其实是一种“隐形利益”,也是需要投资付出的。为什么人们要花费时间精力去认真回答一个问题?不要考虑某些天生热爱分享和好为人师的人,大部分人愿意花费时间精力提供高质量的回答,一方面是可以建立自己在某个方面的权威,打造个人品牌,拓展有价值的人脉关系,从而有机会将隐形利益转化为显性利益。强调人与人之间的关系,强调实名(专门维护的ID也算),才能帮助这些人实现这些。如果这个社区的问答,不重视回答背后的人,那么如何激励人们持续地提供高质量的回答?有时候也许问题本身并不够好,并不吸引你回答,但提问的人与你的关系,邀请你回答的人与你的关系,也会影响到你会如何对待一个问题,是不是要认真回答。比如我看到这个问题是你提出的,基于我们原有的关系,我也更愿意多花点时间,甚至重复一些已经说过多次的观点,再好好回答一下,这跟一个陌生人向我提出问题,还是不一样的。因此:人与人的关系能激励高质量的回答也许也可以这样理解,人与人之间的关系,是知乎这个网站的另一种价值,除了收获知识和成长之外。对于一个社区,关系与内容(问答)其实是相辅相成,共同促进的,都很重要。(纯SNS除外)还有一个回答,也是关于激励:UGC的激励无外乎 荣誉激励、利益激励(这2个都可与特权激励 联系)和情感激励。当然对于不同的人,不同类型激励手段效果会不同。知乎的核心用户能提供高质量问答的用户(提出好问题+给予好回答),这类人通常是:某个领域的专家达人,在业内有一定的知名度和权威性(有能力给予非常专业的回答,也有能力提出非常有深度的问题,激发高质量的讨论)善于学习,有潜力成为某个领域的专家的人(善于学习的人至少不会提过于空泛的问题,有能力提出比较好的问题,回答质量也相对好)对于第一类人(知名专家)的激励:专家级的用户通常在业内已经有比较好的知名度,能驱动他们的除了本身乐于分享传授经验观点,拓展高质量的人脉(其实通常专家级用户也不缺),还有什么可以打动他们?我认为是与高手的交流和特权与高手的交流:英雄惜英雄,一样的道理。做好内容区隔,让高质量的精彩问答充斥在这些专家用户面前(首页、推荐给他们的问题、话题页面等等),更好的分类筛选动态信息功能,更好的算法(考虑问题的权重)和人工运营推荐精彩问答,推荐志同道合的用户,block功能让他们有减少干扰的权力等等。特权——更多的隐形利益:个人的曝光机会,比如在个人页面提供更多的自定义化的特权,用于个人推广,当然能有多大的推广空间,要看用户的贡献度招聘高级人才、寻找创业合作伙伴:虽然知乎是禁止直接招聘的,推崇大家自己去挖掘人才,但既然知乎如此强调这个方面的价值,是不是可以不要对这种行为过于敏感?这是不是可以作为一个特权?如果某些专家级的用户对知乎贡献很大,那么他们有这样的强需求,是不是可以允许他们在这里放心大胆地在这里出考题来挑选人才,是不是可以允许他们发布招聘信息(可以设置由管理员审核之类)?其他特权?特别说明:给予特权完全看贡献度,并非是知名专家就给特权,而是他真的提供了很多高质量的问答,对社区有贡献,对他人有帮助。对于第二类人(有潜力成为专家的人)的激励:我觉得这相对容易一些。他们可以获得的隐形利益(声望、人脉、职业机会等),都可以通过提供高质量的问答(尤其是回答)实现。对于他们来说,如何体现他们在社区的用户级别(某个领域的专业程度)成长,是知乎在产品设计和运营上需要考虑的问题。他们贡献的程度,在某个领域专业程度的体现,要显性地展示出来,这样他们可以更好地实现上面提及的隐形利益。(当然,成长本身对于他们来说就是一种动力,只要这里的社区氛围一直都是认真交流讨论、互相提供帮助,也能保持他们的一定热情)对于所有来这里寻求答案的用户:让他们提出的问题得到最有效的解决就是最大的激励。增加所有“待回答问题”的页面,话题页面的“待回答问题”,让热心的用户发现这些待回答的问题,运营人员也可以更方便地帮助邀请合适的人回答(另外,邀请人回答问题可以增加附言的选项吗?这样可以更有诚意,让被邀请的人也知道为什么要邀请TA,希望听TA如何回答,这样被邀请的人来回答的机率会大一些)微信有朋友圈,然而朋友圈是一个熟人关系。不适合内容的传播。用户喜欢的是熟人的内容,尤其是熟人的生活。基于兴趣的圈子很难在朋友圈建立。虽然一年前,微信团队对外公布过一个数据,说的是朋友圈给公众号文章带来了80%的流量。那是一年前了。我不能说现在的数据,但是现在不是一年前了。当然,这些都是总体数据。具体到每个帐号,运营者都可以在mp后台看到文章阅读的来源。就我自己而言,文章来自朋友圈的流量占比极少。虽然我有一千个联系人。虽然我的文章也有一两百的转发。对于那些用户特别喜欢分享的文章,比如健康养生,我相信比例是不一样的。但是,朋友圈依然不是适合内容传播的生态系统。至少,不适合UGC社区,假如,我们也把公众平台看作一个社区的话。公众平台现在还不是一个社区。很多运营者都跟我说它像一个孤岛。它也许并不需要成为一个社区。但内容创造的激励,总是相关的。我知道团队在努力让它变好,我也在努力。只是,这真的是一条很长很远的路。作者:Amy &微信公众号:OurDearAmy(本文为作者Amy 授权鸟哥笔记发布,未经原作者允许不得转载)
上一篇:下一篇:
Powered by
鸟哥笔记 联系地址:上海市闸北区共和新路层运营大湿兄运营大湿兄运营第一衰关注专栏更多最新文章{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&title&:&运营,有时候就是一句话的事&,&author&:&qin-lu-17&,&content&:&\u003Cp\u003E今天,谈一谈怎么把运营简化。\u003C\u002Fp\u003E\u003Cp\u003E很多时候,工作复杂是因为我们没有找对支点。\u003C\u002Fp\u003E\u003Cp\u003E这是曾经部门中发生的一件事,我手下对我说要策划一项活动,从项目如何实现、中间过程的控制,到最后结束,洋洋洒洒大段话。我全程在听,他说完后,我没有直接评价活动如何,而是提出了一个新的问题:你打算用多少资源,在什么时间内达成怎样的目标。\u003C\u002Fp\u003E\u003Cp\u003E他的陈述,是运营的常规思考路径,它是正确的,但它并不有助于我理解活动,因为倾听是一种线性思考。我的问题,才是我关心的活动的核心。\u003C\u002Fp\u003E\u003Cp\u003E大家不妨想一下,资源、时间和目标,它们是否是策划一场活动的必备要素?\u003C\u002Fp\u003E\u003Cp\u003E活动需要多少资源:是否需要研发,是否有渠道,要线上资源还是线下资源,财务投入需要多少?是否还需要其他帮助?这些没确认,活动做不出详细规划。\u003C\u002Fp\u003E\u003Cp\u003E多久时间:你打算做一个长期的活动,还是短期的?长期的怎么安排和协调,短期的怎么最大化效果?活动前期和后期的准备如何进行?项目管理也是时间管理的艺术。\u003C\u002Fp\u003E\u003Cp\u003E达成什么目标:这应该是最开始的出发点。活动的目的是什么,产品现阶段需要什么,有什么指标要提高?目标可不可以量化,目标与资源的投入产出比是多少?\u003C\u002Fp\u003E\u003Cp\u003E「用多少资源,在什么时间内达成怎样的目标」,是对一个活动项目的高度概括,当我知道这三个要素,在后续的交流过程中才能更好的把控细节。换言之,好的工作交流,应该先提出概括性的论点,然后才去阐述细节,而不是阐述细节,然后总结出论点。\u003C\u002Fp\u003E\u003Cp\u003E这句话是一个活动的最简化模型,你不能再用更简单语言去高效地描述一个活动了。以下是一些简单的例子:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E我们准备投入2亿元在春节期间和微信红包干一架,提高支付宝的市场占有率;\u003C\u002Fp\u003E\u003Cp\u003E我们预计花费10天设计一个H5页面传播,目标是带来10万的曝光量;\u003C\u002Fp\u003E\u003Cp\u003E我们打算投入100万,做一个为期一个月的商品促销,提高该月份GMV;\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E运营活动肯定不简单,它充满繁琐的细节和需要完善的各个步骤。但任何一个活动都会有共通的本质描述,我把它称为抽象,「用多少资源,在什么时间内达成怎样的目标」就是对活动的抽象概括。\u003C\u002Fp\u003E\u003Cp\u003E这是文章今天想谈的话题,\u003Cstrong\u003E优秀的运营应该具备抽象出问题本质的能力。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E我听过这么一段内容,出处不可考:如果你不能用一句话表述清楚,那么你很可能没有真正理解这个问题。\u003C\u002Fp\u003E\u003Cp\u003E仔细思考一下,它是有道理的。我们可以花费很多语句去描述问题,解释与证明问题,但这是思考的过程,而不是思考的结果。\u003C\u002Fp\u003E\u003Cp\u003E不妨先看一下他人总结出的俞军老师的产品军规:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E1.PM首先是用户;\u003C\u002Fp\u003E\u003Cp\u003E2.站在用户角度看待问题;\u003C\u002Fp\u003E\u003Cp\u003E3.用户体验是一个完整的过程;\u003C\u002Fp\u003E\u003Cp\u003E4.追求效果,不做没用的东西;\u003C\u002Fp\u003E\u003Cp\u003E5.发现需求,而不是创造需求;\u003C\u002Fp\u003E\u003Cp\u003E6.决定不做什么,往往比决定做什么更重要;\u003C\u002Fp\u003E\u003Cp\u003E7.用户是很难被教育的,要迎合用户,而不是改变用户;\u003C\u002Fp\u003E\u003Cp\u003E8.关注最大多数用户,在关键点上超越竞争对手,快速上线,在实践中不断改进;\u003C\u002Fp\u003E\u003Cp\u003E9.给用户稳定的体验预期;\u003C\u002Fp\u003E\u003Cp\u003E10.如果不确定该怎么做,就先学别人是怎么做的;\u003C\u002Fp\u003E\u003Cp\u003E11.把用户当作傻瓜,不要让用户思考和选择,替用户预先想好;\u003C\u002Fp\u003E\u003Cp\u003E12.不要给用户不想要的东西,任何没用的东西对用户都是一种伤害;\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E现在看来,这些都是朴实的常识,但是放在十年前,我们就知道这十二句话的份量和价值有多金贵。这是踩坑踩出来的经验总结。\u003C\u002Fp\u003E\u003Cp\u003E它们充满简洁的美感,即使放到今天的互联网,我们也会发现大量的文章、感悟、经验和教训围绕这些观点展开。它是产品经验的高度抽象。\u003C\u002Fp\u003E\u003Cp\u003E那么,我们再想一下,运营是否适用这种概括能力?我想,答案是肯定的。\u003C\u002Fp\u003E\u003Cp\u003E运营的常态是打杂,新人都是从杂事做起来,打访谈电话、做数据报表、潜伏在论坛发广告、每天在群里活跃气氛、伪装成美女勾搭用户。这种工作做久了有意思么?当然没有。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E我总是强调,运营应该从更高的角度思考。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E运营需要一套善于总结和应用的思维方式,技能要学都不难,思维方式才是最大的价值。这也是普通运营和高阶运营的区别。前者关注工作内容本身,后者会思考为什么做、怎么做、如何做得更好。\u003C\u002Fp\u003E\u003Cp\u003E优秀的思考常是简约的。\u003C\u002Fp\u003E\u003Cp\u003E这种思考,会帮助我们找到工作的支点,简化工作。我把它称为「一句话」。\u003C\u002Fp\u003E\u003Cp\u003E还是拿活动三要素的例子,当我们需要办一次活动策划时,我们能直接用三要素搭建起思考的框架。\u003C\u002Fp\u003E\u003Cimg src=\&v2-c1b2dd6f44fa80bbad86af.png\& data-rawwidth=\&1017\& data-rawheight=\&549\&\u003E\u003Cp\u003E它会比无厘头的状态好太多,帮我们在活动前期理顺思路。「一句话」即是方法论、也是思考方式和框架、更是运营经验的总结。我们工作中要多借用「一句话」的力量。\u003C\u002Fp\u003E\u003Cp\u003E再说一个我曾经的文章案例:\u003Ca href=\&http:\u002F\u002Fmp.\u002Fs?__biz=MjM5NjEyMDI2MQ==&mid=&idx=1&sn=84ccfd270e1b1b4244e5cf&chksm=b1ffcb9ec97a99cc4bdd8a5bb64534b4&scene=21#wechat_redirect\& data-editable=\&true\& data-title=\&如果快速培养商业分析思维?\&\u003E如果快速培养商业分析思维?\u003C\u002Fa\u003E其中的一个论点是:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E让更多的用户在更长久的时间内以更频繁的次数购买更昂贵的商品。\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E这句话很容易理解,它概括了四种主流的市场营销方式,如果通过四个分论点展开内容,也是一套行之有效的思维框架。\u003C\u002Fp\u003E\u003Cimg src=\&v2-11dccf656b5df9e98db8f7.png\& data-rawwidth=\&1566\& data-rawheight=\&950\&\u003E\u003Cp\u003E上图的思维导图就是展开的具体方法,我并不需要记住大道理,而是通过这段话引申出运营和营销策略,然后制定出适合的细节。这对新人是不是非常友好?哪怕你没有相关经验,你也比普通人前进了一步。\u003C\u002Fp\u003E\u003Cp\u003E大家可以把它想成一种即拿即用的方法。\u003C\u002Fp\u003E\u003Cp\u003E传统商学院教授的各类法是其中集大成的概括,比如SWOT、4P、4C、5W2H等。\u003C\u002Fp\u003E\u003Cp\u003E如果你观察过我的文章,会发现我有概括论点的习惯,这些都是我思考的结果,它未必正确,但一定是一种好的思考习惯。\u003C\u002Fp\u003E\u003Cp\u003E产品和运营怎么去把思考的过程和结果还原成「一句话」呢?\u003C\u002Fp\u003E\u003Cp\u003E最快的方式,肯定是汲取前人的经验,不论是书本还是文章,肯定会有那么一两句金玉良言,我们就不客气的拿来主义,把它消化掉,结合自己的案例去应用。\u003C\u002Fp\u003E\u003Cp\u003E其次是总结,这是我曾经文章的话题,\u003Ca href=\&http:\u002F\u002Fmp.\u002Fs?__biz=MjM5NjEyMDI2MQ==&mid=&idx=1&sn=152c004935acfc90dfaa30&chksm=bfff543e7b09f6d9f89acba43afa62768efccdda0f974&scene=21#wechat_redirect\& data-editable=\&true\& data-title=\&运营如何快速构建系统性的知识\&\u003E运营如何快速构建系统性的知识\u003C\u002Fa\u003E,原理一样,需要不断的总结、抽象、概括。运营是需要训练的。\u003C\u002Fp\u003E\u003Cp\u003E我在学习过程中,会尝试总结和关联,拿来指导自己的工作。比如下面这一句心得:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E任何运营工作,都需要两种思考角度,运营角度和用户角度。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E你写一篇文章,用了很华丽的词藻和文采修饰,我们小学开始就不断经受作文的锤炼。可是把这能力用到文案上,你会知道自己是错的。\u003C\u002Fp\u003E\u003Cp\u003E各类文案中常见的文字:「尊贵好礼」、「极致体验」、「畅意人生」、「睿智生活」都是华丽却空洞的词汇,它是运营角度的自嗨文案,是我们坐在电脑端依靠自己所见所想创作而出。\u003C\u002Fp\u003E\u003Cp\u003E它真的有效么?用户真的会喜欢么?\u003C\u002Fp\u003E\u003Cp\u003E好的文案营销,贩卖的从来不是产品。用户购买它们,是为了解决问题,为的是获得解决方案。「在工厂我们制造化妆品,在商店我们出售希望」。\u003C\u002Fp\u003E\u003Cp\u003E文案需要从用户角度出发创造:当我是用户的时候,我希望看到什么内容?当我是用户的时候,什么内容更容易打动我;我选择分享,内在的动因是什么?\u003C\u002Fp\u003E\u003Cp\u003E好的内容,可以给用户希望,可以赋予用户情绪,可以制造出用户内心所想唾手可得的幻想。而不仅仅是词汇。\u003C\u002Fp\u003E\u003Cp\u003E你做用户运营,什么又是用户角度的思考?如果我是用户,我会因为什么留下,又会因为什么而离开?我注册这款APP因为哪个点,它的差异在哪里?我愿意持久的使用,它给予了我什么样的期望?\u003C\u002Fp\u003E\u003Cp\u003E运营不止是坐在电脑端的工作,还需要代入用户贴近用户。我不否定运营角度思考的重要性。内容的阅读量分享量、文章传播的范围、用户对不同内容的偏好、新增用户留存率、用户生命周期价值,做活动是否值得、文章为产品带来了什么益处……这些运营角度的思考同样是产品前进的动因。\u003C\u002Fp\u003E\u003Cp\u003E它们不是非此即彼的关系,而是相互依存,两条腿走路的并行思维。很多运营会轻视用户角度,我也犯过同样的错误,然而这些经验总结融汇成「一句话」后,几经训练,已经是下意识的思考习惯了。\u003C\u002Fp\u003E\u003Cp\u003E当我面对一个运营项目,我会从运营角度思考成本、数据指标、ROI等,我也会从用户角度思考流程、痛点、体验…当你们理解了这句话,在往后自己的运营工作中也能拿之即用了。\u003C\u002Fp\u003E\u003Cp\u003E这句话初看老生常谈:噢,是的,其实我也有这种感觉。但是想要用好也不容易。我个人,是在参照了李叫兽的X型文案Y型文案的文章后,结合自己工作经验,才把它形成思考本能。\u003C\u002Fp\u003E\u003Cp\u003E文章到这里,你们觉得,「一句话」的价值大不大?\u003C\u002Fp\u003E\u003Cp\u003E它是运营的有效思考方式之一,我想要告诉大家,运营可不是一个做杂事瞎做事的职位,而是需要正确的思考。\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E用多少资源,在什么时间内达成怎样的目标。\u003C\u002Fp\u003E\u003Cp\u003E让更多的用户在更长久的时间内以更频繁的次数购买更昂贵的商品。\u003C\u002Fp\u003E\u003Cp\u003E任何运营工作,都需要两种思考角度,运营角度和用户角度。\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E消化完上面的三条内容,比读很多文章都有用,因为「一句话」足够简单,很容易掌握。\u003C\u002Fp\u003E\u003Cp\u003E这就是运营的思维方法论。\u003C\u002Fp\u003E\u003Cp\u003E另外我想要强调的是,它虽然简单,但是背后的细节策略和执行,那是呈几何状态的复杂。less is more,它能不断展开和引申,成为一个大的结构或体系。\u003C\u002Fp\u003E\u003Cimg src=\&v2-f0febb48110.png\& data-rawwidth=\&927\& data-rawheight=\&671\&\u003E\u003Cp\u003E「一句话」是运营工作中的支点,是经验的总结和概括,当我们有了越来越多属于自己的思考,运营工作也会顺利很多。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E——————\u003C\u002Fp\u003E\u003Cp\u003E最近咽喉发炎,更新停顿了较长时间,今天还有点昏沉感,写的时候稍微零散了些,这篇文章算一半感悟一半杂谈吧。\u003C\u002Fp\u003E\u003Cp\u003E欢迎关注我的个人公众号:tracykanc\u003C\u002Fp\u003E&,&updated&:new Date(&T15:11:27.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:22,&likeCount&:107,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T23:11:27+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\\u002Fv2-dc8dca88b0d7fb129db9_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:22,&likesCount&:107},&&:{&title&:&SQL,从熟练到掌握&,&author&:&qin-lu-17&,&content&:&\u003Cblockquote\u003E本文是\u003Ca href=\&https:\u002F\\u002Fquestion\u002F2Fanswer\u002F\& class=\&\& data-editable=\&true\& data-title=\&如何快速成为数据分析师\&\u003E如何快速成为数据分析师\u003C\u002Fa\u003E的第十一篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示:如果您已经熟悉数据库,大可不必再看这篇文章,或只挑选部分。\u003C\u002Fblockquote\u003E\u003Cp\u003E我们在上一篇《\u003Ca href=\&https:\u002F\\u002Fp\u002F\& class=\&\&\u003ESQL,从入门到熟练\u003C\u002Fa\u003E》文章已经掌握了除Join外的常用语法和函数,今天会通过一系列的练习彻底掌握SQL。\u003C\u002Fp\u003E\u003Cp\u003E我们知道,数据库由多张表组成,表与表之间可以实现关联。\u003C\u002Fp\u003E\u003Cimg src=\&v2-98cef9fbc0910.jpg\& data-rawwidth=\&431\& data-rawheight=\&356\&\u003E\u003Cp\u003E上图就是一个简单的关联模型:\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003EStudents.addressId = Address.id\u003C\u002Fp\u003E\u003Cp\u003EStudents.id = Scores.studentId\u003C\u002Fp\u003E\u003Cp\u003EScores.courseId = Courses.id\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E那么,如何在SQL查询语句中将两个表联接起来?我们将运用最重要的语法Join。\u003C\u002Fp\u003E\u003Ccode lang=\&mysql\&\u003Eselect * from Students\njoin Address on Students.addressId = Address.id\u003C\u002Fcode\u003E\u003Cp\u003E上面语句,join将Students和Address两表关联,关联需要一个或多个字段作为联接桥梁。例子中的桥梁就是addressid,我们使用on语句,将Students表的addressId字段和Address的id字段匹配。\u003C\u002Fp\u003E\u003Cp\u003E这里需要注意的是,因为字段可能重名,所以一旦使用了Join,字段前应该加上表名,如Students.addressId和Address.id ,这种用法是为了字段的唯一性,否则遇到重名,系统不知道使用哪个字段,就会报错。\u003C\u002Fp\u003E\u003Ccode lang=\&mysql\&\u003Eselect * from Students as s\njoin Address as a on s.addressId = a.id\u003C\u002Fcode\u003E\u003Cp\u003E上图是更优雅的写法,将表命名为一个缩略的别名,避免了语句过于冗余。不要使用拼音做别名,不是好习惯。\u003C\u002Fp\u003E\u003Cp\u003EJoin语法有很多不同的变形,Left Join,Outer Join等,新人很容易混淆。这个我们可以用数学中的交集和并集掌握。\u003C\u002Fp\u003E\u003Cimg src=\&v2-01bda8e7ea411bf27427f3.jpg\& data-rawwidth=\&991\& data-rawheight=\&689\&\u003E\u003Cp\u003E上图很清晰地解释了各Join语法。\u003C\u002Fp\u003E\u003Cp\u003EInner Join最常见,叫做内联接,可以缩写成Join,找的是两张表共同拥有的字段。\u003C\u002Fp\u003E\u003Cp\u003ELeft Join叫做左联接,以左表(join符号前的那张表)为主,返回所有的行。如果右表有共同字段,则一并返回,如果没有,则为空。\u003C\u002Fp\u003E\u003Cp\u003E我们以W3School上的数据为例:\u003C\u002Fp\u003E\u003Cimg src=\&v2-66f8c61faa87bfafde6592.png\& data-rawwidth=\&1456\& data-rawheight=\&794\&\u003E\u003Ccode lang=\&mysql\&\u003Eselect Persons.LastName, Persons.FirstName, Orders.OrderNo\nfrom Persons\nleft join Orders on Persons.Id_P=Orders.Id_P\norder by Persons.LastName\u003C\u002Fcode\u003E\u003Cp\u003E于是输出结果为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-3e9c671ad4d.png\& data-rawwidth=\&1464\& data-rawheight=\&364\&\u003E\u003Cp\u003E结果集中,Bush那一行的OrderNo为空,就是因为Id_P无法匹配上,返回了Null。如果改成Inner join,则不会返回整个Bush所在行。这是Inner Join和Left Join的区别,也是面试中经常会问到的题目。\u003C\u002Fp\u003E\u003Cp\u003ERight Join和Left Join没有区别,A Left Join B 等价于 B Right Join A。\u003C\u002Fp\u003E\u003Cp\u003EFull Join叫做全联接,也叫做Full Outer Join,意思是不管有的没的,只要存在,就返回。\u003C\u002Fp\u003E\u003Cp\u003E还是以之前的例子演示,下面是Full Join:\u003C\u002Fp\u003E\u003Cimg src=\&v2-0f55df70ecd04bdaa20050f.png\& data-rawwidth=\&1452\& data-rawheight=\&424\&\u003E\u003Cp\u003E最后两行就是所谓的「不管有的没的,只要存在字符串,就返回」的结果,它们Id_P并没有匹配上,但还是给出了返回,只是为空字段不同。\u003C\u002Fp\u003E\u003Cp\u003E这三者的关系,我们可以理解为:A Full Join B = A Left Join B + A Right Join B - A Inner Join B,这就是数学上的集合运算,虽然SQL的表并不能加减法。如果还一知半解,看最上面的Join示例图,用面积的角度看也明白了。\u003C\u002Fp\u003E\u003Cp\u003E通过上面的例子,我们已经掌握了Join的主流语法,其他无非是变种。比如加约束条件 where XX is null,这里的XX可以是结果为空的字段。拿上文Left Join的例子演示:\u003C\u002Fp\u003E\u003Ccode lang=\&mysql\&\u003Eselect Persons.LastName, Persons.FirstName, Orders.OrderNo\nfrom Persons\nleft join Orders\non Persons.Id_P=Orders.Id_P\nwhere Orders.Id_P is Null\u003C\u002Fcode\u003E\u003Cp\u003E最终返回的结果就是Bush这一行。\u003C\u002Fp\u003E\u003Cp\u003E当我们有多个字段要匹配时,on后面可以通过 and 进行多项关联。\u003C\u002Fp\u003E\u003Ccode lang=\&mysql\&\u003Eselect * from A\njoin B on A.name = B.name and A.phone = B.phone\u003C\u002Fcode\u003E\u003Cp\u003E上图就是一个简单的适用场景,将用户姓名和手机号进行多项关联。它也可以加入其他的条件判断。\u003C\u002Fp\u003E\u003Ccode lang=\&mysql\&\u003Eselect * from A\njoin B on A.name = B.name and A.phone = B.phone and B.sex = '男'\u003C\u002Fcode\u003E\u003Cp\u003E我们再加一个and,将B表的用户性别限定为男。这种用法等价于where B.sex = '男'。当数据量大到一定程度,通过这种约束条件,能优化查询性能。\u003C\u002Fp\u003E\u003Cp\u003E到这里,SQL的常用语法已经讲解的差不多了,我们进行实战吧。网站是知名的算法竞赛题,去上面刷SQL吧。\u003C\u002Fp\u003E\u003Cp\u003E注册完后进入\u002Fproblemset\u002Fdatabase页面。那里有几道MySQL题目。因为时间关系,我只讲解Join相关,大家有兴趣可以刷其他题,都不难的。SQLZoo也能刷,就是页面丑了点,所以我十分感动地拒绝了它。\u003C\u002Fp\u003E\u003Cimg src=\&v2-a79f07e503b4aec41fe02a978e56ece2.png\& data-rawwidth=\&1872\& data-rawheight=\&1038\&\u003E\u003Cp\u003E我们从Easy开始,选择题目Combine Two Tables。\u003C\u002Fp\u003E\u003Cimg src=\&v2-46ddc9de02b6e33583ef3.png\& data-rawwidth=\&1340\& data-rawheight=\&892\&\u003E\u003Cp\u003E红色字符是表名,第一列是字段名,第二列是数据类型。题目希望我们通过两张表输出:FirstName, LastName, City, State四个字段。\u003C\u002Fp\u003E\u003Cp\u003E单纯的Left Join就能完成了。记住噢,答案需要完全一致,也就是说最终的结果必须是四个字段,不能多不能少,顺序也不能乱,大小写要严格。这一题大家自己做吧。通过后会有个绿色的Accepted提示。\u003C\u002Fp\u003E\u003Cp\u003E接下来选择Medium难度的Department Highest Salary。\u003C\u002Fp\u003E\u003Cimg src=\&v2-bcbe68375f59.png\& data-rawwidth=\&1758\& data-rawheight=\&786\&\u003E\u003Cp\u003E这里有两张表,员工表和部门表,我们希望找出各个部门的最高薪水。\u003C\u002Fp\u003E\u003Cp\u003E部门信息单独为一张表,首先我们需要Join关联起来,将部门分组求出最大值:\u003C\u002Fp\u003E\u003Ccode lang=\&mysql\&\u003Eselect d.Id,
#这是部门ID\n
d.Name as Name,
#这是部门名字\n
max(e.Salary) as Salary
#这是最高薪水\nfrom Department d\njoin Employee e\non e.DepartmentId = d.Id\ngroup by d.Id\u003C\u002Fcode\u003E\u003Cp\u003E上述的查询语句找出了最高薪水的部门,我们是否能直接使用其作为答案?不能。这里有一个逻辑的小陷阱,当最高薪水非单个时,使用max会只保留第一个,而不是列举所有,所以我们需要更复杂的查询。\u003C\u002Fp\u003E\u003Cp\u003E因为已经有了各部门最高薪水的数据,可以将它作为一张新表,用最高薪水关联雇员表,获得我们最终的答案。\u003C\u002Fp\u003E\u003Cimg src=\&v2-be364d2fa0aefe8c6c2b.png\& data-rawwidth=\&1662\& data-rawheight=\&664\&\u003E\u003Cp\u003E上面就是最终解法(#是解释给你们看的,中文会报错的),当然解法应该不是唯一的,大家有兴趣可以继续研究。\u003C\u002Fp\u003E\u003Cp\u003E最终,我们选Hard模式的Department Top Three Salaries。\u003C\u002Fp\u003E\u003Cp\u003E范例数据没有一丁点变化,它需要我们求出各部门薪水前三的数据。如果最高薪水只有两个,则输出两个。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-700bde5adfa212fb91e11.png\& data-rawwidth=\&1354\& data-rawheight=\&392\&\u003E\u003Cp\u003E上图是给的范例结果。\u003C\u002Fp\u003E\u003Cp\u003E排名前三的数据,我们可以使用order by 降序排列出来,然后通过limit 限定为3,但是新的问题是:既要各部门前三,也存在排名并列的情况。此时order by就无能为力了。\u003C\u002Fp\u003E\u003Cp\u003E如果是SQL Server或者Oracle,我们可以使用row_number分组排序函数,但是MySQL没有,其中的一种思路是利用set语法设置变量,间接应用row_number。我们还能使用另外一种思路。\u003C\u002Fp\u003E\u003Ccode lang=\&mysql\&\u003Eselect * from Employee as e\nwhere
select count(distinct e1.Salary) \n
from Employee e1\n
where e1.Salary & e.Salary\n
and e1.DepartmentId = e.DepartmentId\n
) & 3\u003C\u002Fcode\u003E\u003Cp\u003E上述的例子巧妙地借用了子查询。在where语句中,我们用子表e1与父表(外表)e进行比对。SQL是允许子查询的表和父查询的表进行运算的。\u003C\u002Fp\u003E\u003Cp\u003Ee1.DepartmentId = e.DepartmentId作为条件约束,避免跨部门。e1.Salary & e.Salary则是逻辑判断,通过count函数,逐行计算出e表中有多少薪水比e1的薪水低。\u003C\u002Fp\u003E\u003Cimg src=\&v2-9fe05a4cbbb47fc51ee7074.png\& data-rawwidth=\&1734\& data-rawheight=\&688\&\u003E\u003Cp\u003E因为e1表和e表实际上是等价的。所以返回的count(distinct e1.Salary) 代表e1表有中多少薪水比e表的高,上图的例子,答案是2(9比它高)。如果是0,则代表e表中该行薪水最高(没有比它高的),1代表第二高,2代表第三高。于是便过滤出Top 3的薪水。最后通过join计算出结果。\u003C\u002Fp\u003E\u003Cimg src=\&v2-a70b0edb832f2b58b3e8af.png\& data-rawwidth=\&1708\& data-rawheight=\&538\&\u003E\u003Cp\u003E在实际查询过程中,不建议大家使用这种运算方式,因为运算效率不会快。其实换我,我更可能group by后导出结果用Excel处理。\u003C\u002Fp\u003E\u003Cp\u003E到这里,大家对Join已经有一个大概的了解了吧。真实的数据查询场景中,Join会用到很多,业务复杂用五六个Join也是常态,如果算上各类逻辑处理,SQL代码行数可以破百。这时候,考验的就是熟练度了。\u003C\u002Fp\u003E\u003Cp\u003ESQL只要多加训练,并不是一门很难掌握的语言。除了技巧,还要看你对业务表的熟悉程度,一般公司发展大了,百来张表很正常,各类业务逻辑各种Join,各字段的含义,这是同样要花费时间的苦功夫。\u003C\u002Fp\u003E\u003Cp\u003E希望大家对SQL已经有一个初步的掌握了。SQL学好了,以后应用大数据的Hive和SparkSQL也是轻而易举的。\u003C\u002Fp\u003E\u003Cp\u003E接下来,我们将要进入第五周的大魔王课程,统计学,从入门到放弃,哈哈哈。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E——————\u003C\u002Fp\u003E\u003Cp\u003E欢迎关注我的个人公众号:tracykanc\u003C\u002Fp\u003E&,&updated&:new Date(&T15:31:31.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:28,&likeCount&:193,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T23:31:31+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\\u002Fv2-ae576dd82ad_r.png&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:28,&likesCount&:193},&&:{&title&:&读懂用户运营体系:用户分层和分群&,&author&:&qin-lu-17&,&content&:&\u003Cp\u003E什么是用户运营?\u003C\u002Fp\u003E\u003Cp\u003E它以最大化提升用户价值为目的,通过各类运营手段提高活跃度、留存率或者付费指标。在用户运营体系中,有一个经典的框架叫做AARRR,即新增、留存、活跃、传播、盈利(历史文章已经涉及了)。\u003C\u002Fp\u003E\u003Cimg src=\&v2-50ec587d3b95d16ebead.jpg\& data-rawwidth=\&640\& data-rawheight=\&360\&\u003E\u003Ch2\u003E用户分层\u003C\u002Fh2\u003E\u003Cp\u003E然而,从用户活跃到盈利,不是两个简单的步骤。如果用户打开产品既算活跃,就一定能保证商业模式盈利?优秀的用户运营体系,应该是动态的演进。\u003C\u002Fp\u003E\u003Cp\u003E演进是一种金字塔层级的用户群体划分,上下层呈依赖关系。\u003C\u002Fp\u003E\u003Cp\u003E首先,用户群体的状态会不断变化。以电商为例,他们会注册,下载,使用产品,会推荐,评价,购买以及付费,也会注销、卸载、和流失。从运营角度看,我们会引导用户做我们想要他做的事(这里是付费),这件事叫核心目标。\u003C\u002Fp\u003E\u003Cp\u003E核心目标当然不是一蹴而就的,用户要经历一系列的过程。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cimg src=\&v2-c6a5be3ddddec3cfcc210.png\& data-rawwidth=\&762\& data-rawheight=\&163\&\u003E也不是所有的用户会按照我们设想完成步骤,各步骤会呈现漏斗状的转化。我们把整个环节看作用户群体的演进。\u003C\u002Fp\u003E\u003Cimg src=\&v2-bbfd29acbed.png\& data-rawwidth=\&667\& data-rawheight=\&289\&\u003E\u003Cp\u003E上图就是一个典型的自下而上的演进,概括了用户群体的理想行为。\u003C\u002Fp\u003E\u003Cp\u003E既然用户群体是不再是一个简单的整体,运营们也就无法一刀切的粗暴运营了,而是需要根据不同人群针对性运营。这既叫精细化策略,也叫做用户分层。\u003C\u002Fp\u003E\u003Cp\u003E它对运营们的最大价值,就是通过分层使用不同策略。\u003C\u002Fp\u003E\u003Cp\u003E新用户:我希望他们能下载产品,常用的策略是新用户福利;\u003C\u002Fp\u003E\u003Cp\u003E下载用户:我希望他们能使用产品,此时应该用新手引导,让他熟悉。\u003C\u002Fp\u003E\u003Cp\u003E活跃用户:我希望加深他们使用产品的频率,那么运营人员要持续的运营,固化用户的使用习惯,并且对产品内容感兴趣;\u003C\u002Fp\u003E\u003Cp\u003E兴趣用户:我希望他们完成付费决策,购买商品,运营可以使用不同的促销和营销手段;\u003C\u002Fp\u003E\u003Cp\u003E付费用户:这是我的目标用户,我也希望用户能一直维持这状态。\u003C\u002Fp\u003E\u003Cp\u003E不同的用户层级,采取的手段不同。运营同样会受资源的限制,当我们只能投入有限资源的时候,往往会选择核心群体,即上文的付费用户们。因为根据二八法则,只有核心群体能贡献最大的价值。\u003C\u002Fp\u003E\u003Cp\u003E一个典型的例子是,在游戏公司,会有专门的人工客服甚至电话专线服务人民币玩家,声音甜美。普通玩家可能是万年不变的自动回复。\u003C\u002Fp\u003E\u003Cp\u003E想必大家已经了解分层,那么应该怎么划分?\u003C\u002Fp\u003E\u003Cp\u003E其实分层并没有固定的方式,只能根据产品形态设立因地制宜的体系。不过它有一个中心思想:根据指标划分,因为指标是一种可明确衡量的标准,远优于运营人员的经验直觉。\u003C\u002Fp\u003E\u003Cimg src=\&v2-6d3d00cde5a.png\& data-rawwidth=\&1182\& data-rawheight=\&586\&\u003E\u003Cp\u003E上图是一个简化的游戏用户分层,每层指标都是可量化的。为了上下层用户清晰,群体间应尽量独立,即计算RMB玩家时,应该把土豪玩家排除,计算普通玩家时,应该把结果中包含的上两层排除,这样运营的针对性才强。\u003C\u002Fp\u003E\u003Cp\u003E之后运营人员可以依此构建分层报表,通过数据趋势,制定各种方式来提高数据。\u003C\u002Fp\u003E\u003Cimg src=\&v2-ddfea7eb1a.png\& data-rawwidth=\&1834\& data-rawheight=\&454\&\u003E\u003Cp\u003E接下来,我们想一下知乎的用户分层是什么样的形式?它的核心是大V生产内容?还是更多用户参与Live获得营收?挺难决断的,其实很多运营体系,用户分层是两层结构。\u003C\u002Fp\u003E\u003Cp\u003E它以两个相辅相成的核心作目标,以此形成双金字塔分层。\u003C\u002Fp\u003E\u003Cimg src=\&v2-a9fe4f199e332f81ac53.png\& data-rawwidth=\&1146\& data-rawheight=\&966\&\u003E\u003Cp\u003E在这种结构下,它的核心用户,既有内容生产方向的大V,又有消费方向的忠实粉丝,它们代表的是两类运营策略。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E内容生产方向\u003C\u002Fb\u003E:早期利用邀请制获得各行业的优秀人才,通过运营人员维系关系,并且鼓励生产内容。产品的机制也会激励大V更好的创作和生产。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E内容消费方向\u003C\u002Fb\u003E:则是找出普通用户的内容兴趣,加以引导,培养他们的付费习惯。增加Live、值乎、电子书的曝光,设计各类优惠券促进用户使用。\u003C\u002Fp\u003E\u003Cp\u003E这类双金字塔结构,将内容生产者和内容消费者聚合在一起构成了整个平台的良性循环:大V创作内容,吸引普通人,普通人为内容付费,大V获得收益。\u003C\u002Fp\u003E\u003Cp\u003E双金字塔结构的用户分层并不少见。以我们熟知的电子商务为例,即有买家,也有卖家。买家的运营方式已经耳熟能详,卖家呢?开店教程、卖家大学、店铺装修、曝光位展示、店铺后台、各类辅助产品…运营同样需要帮助卖家成长,于是卖家也可以划分成普通卖家、高级卖家、大客户、超级金主这些等级。\u003C\u002Fp\u003E\u003Cp\u003EO2O是不是双层结构?当然是。online是用户,offline则是各类线下或者服务实体,只是这些卖家更多是销售地推和市场人员维护,但我们一样可以使用分层的思想去运营。其他还有视频直播的网红和群众,微博的大V和草根,招聘APP的企业和员工等等。\u003C\u002Fp\u003E\u003Cp\u003E不同产品的形态会有差异,同一产品的不同阶段,也可以用不同的用户分层。一款产品早期,用户分层的目标是更多的用户和KOL,后期,会更贴近商业方向,这就需要运营设立灵活的分层了。\u003C\u002Fp\u003E\u003Cp\u003E用户分层,一般四五层结构就可以了,过多的分层会变得复杂,不适合运营策略的执行。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Ch2\u003E用户分群\u003C\u002Fh2\u003E\u003Cp\u003E用户运营体系是否只有用户分层?不完全是。\u003C\u002Fp\u003E\u003Cp\u003E用户分层是上下结构,可是用户群体并不能以结构作为完全概括。简单想一下吧,我们以是否付费划出了付费用户群体,可是这部分群体也有差异,有用户一掷千金,有用户高频购买,有用户曾经购买但是现在不买了,这该怎么细分?\u003C\u002Fp\u003E\u003Cp\u003E如果继续增加层数,条件会变得复杂,也解决不了业务需求。\u003C\u002Fp\u003E\u003Cp\u003E于是我们使用水平结构的用户分群。将同一个分层内的群体继续切分,满足更高的精细化需要。\u003C\u002Fp\u003E\u003Cimg src=\&v2-db167f2665.png\& data-rawwidth=\&1158\& data-rawheight=\&588\&\u003E\u003Cp\u003E怎么理解用户分群,我们拿下面的案例说明。\u003C\u002Fp\u003E\u003Cimg src=\&v2-cdab0b541afacbe770c42a7e.png\& data-rawwidth=\&1828\& data-rawheight=\&288\&\u003E\u003Cp\u003E男女性别在以消费为核心的产品中会呈现显著的区别,它就是两个相异的群体。分群的核心目标是提高运营效果,将运营策略的价值最大化,在电商产品中,区分男女很正常,但是在工具类的APP中,或许就没有必要性了。\u003C\u002Fp\u003E\u003Cp\u003E这也是我一直强调的,分层和分群,都是以产品和运营目标为依据才能建立体系。\u003C\u002Fp\u003E\u003Cp\u003E接下来是分群的实际应用。\u003C\u002Fp\u003E\u003Cp\u003ERFM模型是客户管理中的经典方法,它用以衡量消费用户的价值和创利能力,是一个典型的分群。\u003C\u002Fp\u003E\u003Cp\u003E它依托收费的三个核心指标:消费金额、消费频率和最近一次消费时间,以此来构建消费模型。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E消费金额Monetary\u003C\u002Fstrong\u003E:消费金额是营销的黄金指标,二八法则指出,企业80%的收入来自20%的用户,该指标直接反应用户的对企业利润的贡献。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E消费频率Frequency\u003C\u002Fstrong\u003E:消费频率是用户在限定的期间内购买的次数,最常购买的用户,忠诚度也越高。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E最近一次消费时间Recency\u003C\u002Fstrong\u003E:衡量用户的流失,消费时间越接近当前的用户,越容易维系与其的关系。1年前消费的用户价值肯定不如一个月才消费的用户。\u003C\u002Fp\u003E\u003Cp\u003E通过这三项指标,我们很容易构建出一个描述用户消费水平的坐标系,以三个指标形成一个数据立方体:\u003C\u002Fp\u003E\u003Cimg src=\&v2-378c49b8bdc44fe.jpg\& data-rawwidth=\&667\& data-rawheight=\&384\&\u003E\u003Cp\u003E坐标系上,三个坐标轴的两端代表消费水平从低到高,用户会根据其消费水平,落到坐标系内。当有足够多的用户数据,我们就能以此划分大约八个用户群体。\u003C\u002Fp\u003E\u003Cp\u003E比如用户在消费金额、消费频率、最近一次消费时间中都表现优秀,那么他就是重要价值用户。\u003C\u002Fp\u003E\u003Cp\u003E如果重要价值用户最近一次消费时间距今比较久远,没有再消费了,他就变成重要挽留用户。因为他曾经很有价值,我们不希望用户流失,所以运营人员和市场人员可以专门针对这一类人群唤回。\u003C\u002Fp\u003E\u003Cp\u003E图中不同的象限区域,都对应不同的消费人群。大家是愿意简单地视为一体去运营,还是根据人群区别对待呢?\u003C\u002Fp\u003E\u003Cp\u003E这就是RFM模型,曾经在传统行业被频繁应用,而在以消费为主的运营体系中能够移植过来为我们所用,它既是CRM系统的核心,而是消费型用户分群的核心。\u003C\u002Fp\u003E\u003Cp\u003ERFM模型的主流分群方式有两种。\u003C\u002Fp\u003E\u003Cp\u003E一种是建立指标,以指标作为划分依据,和用户分层差不多。\u003C\u002Fp\u003E\u003Cp\u003E指标的判断和设立,需要业务专家的经验:什么样的算高消费频率,什么样的算低,消费多少金额算有价值,这些都是学问。并且需要不断修正和改进。\u003C\u002Fp\u003E\u003Cimg src=\&v2-bd3a9ed61.jpg\& data-rawwidth=\&910\& data-rawheight=\&228\&\u003E\u003Cp\u003E上图是一个简化的划分,实际应用会更复杂,因为指标未必有代表性。大部分收费相关的数据,都会呈长尾分布,80%用户都集中在低频低金额的区间,20%的用户却又创造了大部分营收,这是划分的难点。\u003C\u002Fp\u003E\u003Cp\u003E指标一般用描述性统计的分位数,以中位数、第一四分位数、第三四分位数等划分。\u003C\u002Fp\u003E\u003Cp\u003E另外一种是用算法,通过数据挖掘建立用户分群,不需要人工划分。最常见的算法叫KMeans聚类算法,核心思想是「物以类聚,人以群分」。\u003C\u002Fp\u003E\u003Cp\u003E我们以网上某公司的数据进行Python建模,首先无量纲化(z-score)处理,并且清洗掉异常极值。\u003C\u002Fp\u003E\u003Cimg src=\&v2-8d9c34acc42fa465bb778c2e.png\& data-rawwidth=\&366\& data-rawheight=\&229\&\u003E\u003Cp\u003E上图的三列数据是经过标准化后的用户消费数据。值越接近0,说明离平均水平越近。r值因为是最近一次消费时间,所以值越小,说明时间越接近,值越大,说明消费越久远。\u003C\u002Fp\u003E\u003Cp\u003E通过RFM三个指标(在机器学习中叫做特征),先建立可视化的散点图。下图是最近一次收费R和收费金额M的散点图。每一个点都代表着一位用户的收费相关数据\u003C\u002Fp\u003E\u003Cimg src=\&v2-8efb3c790a9.png\& data-rawwidth=\&566\& data-rawheight=\&335\&\u003E\u003Cp\u003E散点图上暂时看不出用户分群的规律,只能初步判断,大部分的数据呈集中趋势。\u003C\u002Fp\u003E\u003Cp\u003E既然KMeans算法的核心思想是「物以类聚,人以群分」,它就是以距离作为目标函数。简而言之,在距离上越接近的两个用户,其相似的可能性也越大,于是KMeans就把相似的群体找出来,叫做簇。簇与簇之间的距离越大,用户群体间越独立,这叫群分;簇内的距离越紧凑,说明用户们越相似,这叫类聚。\u003C\u002Fp\u003E\u003Cp\u003E通过图表说话:\u003C\u002Fp\u003E\u003Cimg src=\&v2-ac194aef73e496ced5fd6c.jpg\& data-rawwidth=\&1208\& data-rawheight=\&672\&\u003E\u003Cp\u003E红圈标出的这些用户,更有可能相似,属于同一个用户群体。因为他们在R和M这两个指标上,数据接近,都处于消费金额较低,且近期有消费的人群。\u003C\u002Fp\u003E\u003Cp\u003E至于是不是,让算法解决吧,具体的算法原理和过程就不演示了。我们假设能划分出五类用户群体,然后看下这些人群是什么样的。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-86b156f6e4eec475fcfcf1.jpg\& data-rawwidth=\&657\& data-rawheight=\&447\&\u003E\u003Cp\u003E上图的不同颜色,就是算法计算出的用户群体。\u003C\u002Fp\u003E\u003Cp\u003E红色用户群体:代表的是高消费金额,因为数量稀少,所以在最近一次消费时间上没有明显区分,不过并不久远。这些都是产品的爸爸和金主。\u003C\u002Fp\u003E\u003Cp\u003E绿色用户群体:代表的是有流失倾向的用户,这些用户消费金额不太多,运营可以采取适当的挽回策略。\u003C\u002Fp\u003E\u003Cp\u003E紫色用户群体:代表的是近期消费,消费金额较少的用户,运营需要挖掘他们的价值,去发展和培养。\u003C\u002Fp\u003E\u003Cp\u003E青色和蓝色似乎不能明显区分。那我们改一下散点图的维度呢?\u003C\u002Fp\u003E\u003Cimg src=\&v2-904ac10d6e322ece82ac.jpg\& data-rawwidth=\&646\& data-rawheight=\&446\&\u003E\u003Cp\u003E改用指标R和F后,则是另外一种视角。青色用户群体比蓝色用户群体有过更多的消费次数,蓝色用户的消费频率比较差,更需要激励。紫色用户群体拥有相当高的消费频率。\u003C\u002Fp\u003E\u003Cp\u003E到此,用户群体已经明显区分,大家是否能准确概述这些用户的特点了呢?虽然从数据分布上,长尾形态会一定程度影响可读性,但运营还是能针对不同群体作出相应的运营手段。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E通过散点图矩阵观察最终的结果 (图片可能清晰度不佳):\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cimg src=\&v2-0be38610ee.jpg\& data-rawwidth=\&742\& data-rawheight=\&730\&\u003E\u003Cp\u003E以上就是RFM模型的内容。它能动态的提供用户的消费轮廓,给市场、销售、产品和运营人员提供精细化运营的依据。这也是数据挖掘在用户运营的应用之一,大家要了解。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E怎么划分群体是一门学问,划分的群体少了,区分度不明显;划分的多了,则没有业务价值,二十几个群体你怎么去运营?群体数量,是要在数据和业务间取得平衡。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E总而言之,分群的方法,一类是通过指标和属性人工的划分出用户群体。另外一类是通过数据挖掘,给结果赋予业务意义。反正最终的目的是提高运营效果和价值。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E我们可以用RFM模型,试着将思维更开阔一下,能不能玩出新花样?完全可以尝试。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Cstrong\u003E金融\u003C\u002Fstrong\u003E:投资金额、投资频率、最近一次投资时间;\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E直播\u003C\u002Fstrong\u003E:观看直播时长、最近一次观看时间、打赏金额;\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E内容\u003C\u002Fstrong\u003E:评论次数、评论字数、评论被点赞数;\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E网站\u003C\u002Fstrong\u003E:登录次数、登录时长、最近一次登录时间;\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E游戏\u003C\u002Fstrong\u003E:等级、游戏时长、游戏充值金额;\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E这些是我简单列举的参考,未必准确,作为大家参考的他山之石。不同产品的分群策略也不一样,比如酒店产品,住宿不是一个固态的需求,是否需要加入时间的维度呢?也许住宿条件会更好分群。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E需要注意的是,群体数量并不固定,可以是两个,也可以是四个,具体就看业务需求,主要是能囊括大部分用户。只是别太多,一来复杂,二来KMeans聚类在多特征的表现不算好。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E通过用户分层和用户分群,想必大家已经了解了用户运营体系的基石。用户分层,是基于大方向的划分,你希望用户朝什么核心目标努力,而用户分群,则是将他们切分更细的粒度提高效果。两者是相辅相成的。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E如果用户大到一定量级,分层和分群就未必是好的方法,因为用户群的属性粒度特征随着产品进一步扩大,不论怎么细分都难以满足用户的复杂性,常见于各类平台型产品。这时候需要引入用户画像(UserProfile)体系,此时的用户分层和分群,都只是画像的一部分了。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E——————\u003C\u002Fp\u003E\u003Cp\u003E欢迎关注我的个人公众号:tracykanc\u003C\u002Fp\u003E&,&updated&:new Date(&T13:59:51.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:18,&likeCount&:114,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T21:59:51+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\\u002Fv2-eeac95cd5bcddf04ab917089_r.png&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:18,&likesCount&:114},&&:{&title&:&解锁数据分析的正确姿势:描述统计&,&author&:&qin-lu-17&,&content&:&\u003Cblockquote\u003E本文是\u003Ca href=\&http:\u002F\u002Fmp.\u002Fs?__biz=MjM5NjEyMDI2MQ==&mid=&idx=1&sn=c75cfca06dc0f8a4f6cf&chksm=bfff4ff58a20bcfba7d80a9ea68b126bbdc7ebaf9a9b2c1&scene=21#wechat_redirect\& data-editable=\&true\& data-title=\&《如何七周成为数据分析师》\&\u003E《如何七周成为数据分析师》\u003C\u002Fa\u003E的第十二篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示:如果您已经熟悉统计学,大可不必再看这篇文章,或只挑选部分。\u003C\u002Fblockquote\u003E\u003Cp\u003E当获得一份数据集时,你会怎么做?\u003C\u002Fp\u003E\u003Cp\u003E立马撩起袖管进行分析么?这不是一个好建议。无数的经验告诉我们,如果分析师不先行了解数据集的质量,后续的推断分析是事倍功半的。\u003C\u002Fp\u003E\u003Cp\u003E正确的处理方法是先使用描述统计。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E什么是描述统计学\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E它是一种综合概括数据集的方式,包括数据的加工和显示,数据集的分布特征等。它与推断统计相呼应。\u003C\u002Fp\u003E\u003Cp\u003E在进入统计学习前,先明确基础概念。\u003C\u002Fp\u003E\u003Cp\u003E数据可以分为分类型数据和数值型数据。分类型数据是识别变量的类型,比如男女、地区、各种类别;数值型数据是表示数值的大小和多少,比如年龄中的18、19、20岁。\u003C\u002Fp\u003E\u003Cp\u003E最明显的区分是,分类型数据不能使用加减法,而数值型数据可以。两者在一定程度可以互相转换。比如年龄,18岁是数值型数据,但它也可以转换成分类数据「青少年」。我们也能用数值表示分类数据,比如0代表女,1代表男,它依旧没有计算意义,更多是方便计算机存储而已。\u003C\u002Fp\u003E\u003Cp\u003E分类数据和数值数据的具体应用,会在往后的学习中继续深入,本文先将主要精力放在数值型数据。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E数据的度量\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E平均数是一种数据位置的度量,用以了解整体数据,这是小学就学到的内容。可是平均数并不是一个权威的衡量指标,当我们提到全国平均工资的时候,我们都是被马云爸爸王健林爸爸平均的普通人。\u003C\u002Fp\u003E\u003Cp\u003E平均数容易受到极值的影响,因为数据集并不能保证「干净」,各类运营数据经常受到扰动,比如薅羊毛党就会拉高营销活动的平均值。一般而言,可以用调整平均数(trimmed mean)消除异常波动,在数据集中删除一定比例的极大值和极小值,比如5%,然后重新计算平均数。\u003C\u002Fp\u003E\u003Cp\u003E它既然不靠谱,我们便请出中位数。将所有数据按升序排列后,位于中间的数值即中位数。当数据集是奇数,中位数是中间的数值,当数据集是偶数,中位数是中间两个数的平均值。这也是小学的内容。\u003C\u002Fp\u003E\u003Cp\u003E另外一种度量是众数,它是数据集出现频次最多的数据,当有多个众数时,称为多众数。众数使用的频率低于前两者,更多用于分类数据。\u003C\u002Fp\u003E\u003Cp\u003E平均数、中位数、众数构成了标准的衡量方法。但是还不够。\u003C\u002Fp\u003E\u003Cp\u003E数据分析师常将数据划分为四个部分,每一部分包含25%的数据集,划分的分割点叫做四分位数。\u003C\u002Fp\u003E\u003Cp\u003E依次将数据升序排列,位于第25%位置的叫做第一四分位数Q1,位于第50%位置的叫做第二四分位数Q2,即中位数,位于第75%的叫做第三分位数Q3。这三个点,能辅助衡量数据的分布状态。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E数据的离散和变异\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E我们考虑一个新的问题,现在一家电商公司要卖两个同类型的商品,它们的一周销量(单位:个)如下:\u003C\u002Fp\u003E\u003Cp\u003E商品A:10,10,10,11,12,12,12\u003C\u002Fp\u003E\u003Cp\u003E商品B:3,5,6,11,16,17,19\u003C\u002Fp\u003E\u003Cp\u003E它们的平均数一样,中位数也一样,可它们的真实情况呢?当然不。作为商品,我们更喜欢销量稳定的。\u003C\u002Fp\u003E\u003Cp\u003E方差是一种可以衡量数据「稳定性」的度量,更通俗的解释是衡量数据的变异性,从图形上说,也叫离散程度。\u003C\u002Fp\u003E\u003Cp\u003E方差的计算公式是各个数据分别与其平均数之差的平方和的平均数。\u003C\u002Fp\u003E\u003Cequation\u003E\\sigma ^{2} =\\frac{ \\sum_{i=1}^{n} {(x_{i} -\\mu )^{2}}}{n}
\u003C\u002Fequation\u003E\u003Cbr\u003E\u003Cp\u003E上述公式是总体数据集的方差计算,当数据近为部分抽样样本时,n应该改为n-1。数据集足够大时,两者的误差也可以忽略不计。\u003C\u002Fp\u003E\u003Cp\u003E现在计算上文商品的方差。Excel中的方差公式为VARP( ),如果是样本数据,则为VAR( )。不同Excel版本,函数会有微小差异。\u003C\u002Fp\u003E\u003Cimg src=\&v2-c63d2b3f7b.png\& data-rawwidth=\&744\& data-rawheight=\&400\&\u003E\u003Cp\u003E方差越大,说明数据集的离散程度越大,商品A的销量波动明显比商品B稳定。方差的计算中,因为涉及到了平方和,所以单位的量纲是平方(商品A和B的方差,单位为个^2),它很难有直观的诠释。于是我们又引入标准差。\u003C\u002Fp\u003E\u003Cp\u003E标准差是方差的开平方:\u003C\u002Fp\u003E\u003Cequation\u003E\\sigma =\\sqrt{\\sigma ^{2}} \u003C\u002Fequation\u003E\u003Cbr\u003E\u003Cp\u003EExcel中,标准差的计算函数为stdevp( ),如果是样本数据,则为stdev( )。\u003C\u002Fp\u003E\u003Cp\u003E方差和标准差的意义是相同的,但是标准差与原始数据的单位量纲相同,它更容易与平均数等度量比较。比如商品A的平均销量为11个,标准差为0.85个,于是我们知道这个商品卖的比较稳。\u003C\u002Fp\u003E\u003Cp\u003E切比雪夫定理指出,至少有75%的数据值与平均数的距离在2个标准差以内,至少有89%的数据与平均数在3个标准差之内,至少有94%的数据与平均数在4个标准差以内。这是一个非常方便的定理,能快速掌握数据包含的范围。\u003C\u002Fp\u003E\u003Cp\u003E假设上海地区的平均薪资是20k,标准差是5K,那么大约有90%的薪资,都在5k~35k的区间内。\u003C\u002Fp\u003E\u003Cp\u003E如果数据本身符合正态(钟形)分布,那么切比雪夫定理的估算将进一步准确:68%的数据落在距离平均数一个标准差内,95%的数据值落在距离平均数2个标准差之内,几乎所有的数据落在三个标准差内。\u003C\u002Fp\u003E\u003Cp\u003E在Excel中,有一个重要的工具叫数据分析库(部分Excel版本需要安装,自行搜索),里面封装了大量的统计工具。\u003C\u002Fp\u003E\u003Cimg src=\&v2-b2a10dfcafee7c35e263177ebda387ae.png\& data-rawwidth=\&1694\& data-rawheight=\&560\&\u003E\u003Cp\u003E点击描述统计,选择需要计算的区域,设置为逐列,输出区域选择旁边U2区块。输出计算结果。\u003C\u002Fp\u003E\u003Cimg src=\&v2-692bcd4abc7d90.png\& data-rawwidth=\&1090\& data-rawheight=\&572\&\u003E\u003Cp\u003E\n列1的所有内容,均属于描述统计中的各类度量。我们不用一个个函数去计算了。\u003C\u002Fp\u003E\u003Cp\u003E方差和标准差是重要的概念,在后续的统计学中将继续出现。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E数据的箱线图\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E回到度量,上文提到的内容,都属于数值类的方法,可它们还是不够直观。\u003C\u002Fp\u003E\u003Cp\u003E先汇总五类数据:最小值、第一四分位数Q1、中位数、第三四分位数Q3、最大值。\u003C\u002Fp\u003E\u003Cp\u003E拿数据分析师的薪资数据作案例。\u003C\u002Fp\u003E\u003Cimg src=\&v2-e95dc0923a72eecb2b935c53c9b81450.png\& data-rawwidth=\&834\& data-rawheight=\&376\&\u003E\u003Cp\u003E以上是清洗后的数据。我们用Excel函数计算这五个度量。分别是median( )、max( )、min( )、quartile( )。按城市区分。\u003C\u002Fp\u003E\u003Cimg src=\&v2-3287136eed904a9abfee51.png\& data-rawwidth=\&846\& data-rawheight=\&472\&\u003E\u003Cp\u003E通过数据,现在可以了解各城市的数据分析师薪资分布了,接下来把它们加工成箱线图,它是最常用的描述统计图表。\u003C\u002Fp\u003E\u003Cp\u003E箱线图通过我们求出的五个数据确定位置。\u003C\u002Fp\u003E\u003Cimg src=\&v2-0abbffd886.jpg\& data-rawwidth=\&540\& data-rawheight=\&321\&\u003E\u003Cp\u003E箱线图的上下边缘分别是最大值和最小值(实际不是,这里为了方便,先这样理解),箱体的上下边界则是25%分位数和75分位数。箱内横线是中位数。异常值是箱线边缘外的数值,需要直接排除。\u003C\u002Fp\u003E\u003Cp\u003EExcel2016可以直接绘制箱线图,如果是早期版本,有两种作图思路。\u003C\u002Fp\u003E\u003Cp\u003E第一种,是利用股价图。将图表按25%分位数、最大值、最小值、75%分位数的顺序排列。\u003C\u002Fp\u003E\u003Cimg src=\&v2-b4f983a24e2f14fe72352.png\& data-rawwidth=\&1880\& data-rawheight=\&294\&\u003E\u003Cp\u003E然后直接生成图表:\u003C\u002Fp\u003E\u003Cimg src=\&v2-bad2c98fb58a2ef421ae38e64ff1c82e.png\& data-rawwidth=\&1366\& data-rawheight=\&756\&\u003E\u003Cp\u003E这个图表是没有中位数的,中位数需要添加上去。数据源新建一个系列,该系列应该调整到位于数据源的中间位置。\u003C\u002Fp\u003E\u003Cimg src=\&v2-a499bd0f1fb836e9caaeddb.png\& data-rawwidth=\&1788\& data-rawheight=\&548\&\u003E\u003Cp\u003E选择中位数的数据系列格式,更改标记为「-」,大小为12榜,颜色为黑色。此时就有箱线图的雏形了。\u003C\u002Fp\u003E\u003Cimg src=\&v2-e9f4cd2f00faeea9e03c768f9a7eee04.png\& data-rawwidth=\&1358\& data-rawheight=\&748\&\u003E\u003Cp\u003E另外一种思路是利用散点图的误差线绘制,和甘特图的原理一样,大家自己练习吧。\u003C\u002Fp\u003E\u003Cp\u003E其实从图表中看到,虽然我们描绘出了箱线图,但是不同城市的数据区别并不直观,因为最大值撑高了箱线图的边缘。我们经常会遇到这些影响分析质量的异常值(过于异常的数值虽然存在合理性,但是很多分析必须移除掉它们)。我们需要清洗掉这批异常值。\u003C\u002Fp\u003E\u003Cp\u003E定义四分位差IQR=Q3(75%分位数)—Q1(25%分位数),箱线图的界限在(Q1-1.5IQR,Q3+1.5个IQR)处。界限外部所有值均为异常值。\u003C\u002Fp\u003E\u003Cimg src=\&v2-6b52d7f2a285f.png\& data-rawwidth=\&1302\& data-rawheight=\&506\&\u003E\u003Cp\u003Ebottom和top就是新的界限,对于在界限外部的数据,均认为是异常值。界限内部的数据则是箱线图的主体,接下来找出界限内的最大值和最小值。比如上海的界限是-5~39之间,而界限内的数据实际范围为1.5~37.5,那么就以1.5~37.5绘制箱形。\u003C\u002Fp\u003E\u003Cp\u003E现在大家求出了真正的五个度量,可以重新绘制箱线图(我们要用bottom和top求出范围内新的最大值和最小值)。为了方便演示,我直接以Python生成(以前教过的BI也行,更好看)。\u003C\u002Fp\u003E\u003Cimg src=\&v2-23d4e1e8d.png\& data-rawwidth=\&1810\& data-rawheight=\&974\&\u003E\u003Cp\u003E比Excel绘制的图直观多了。红线位置,是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,人群被四等分了。\u003C\u002Fp\u003E\u003Cp\u003E我们解读一下:上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。\u003C\u002Fp\u003E\u003Cp\u003E这张图能一眼看出不少内容,想必大家已经明白箱线图的作用了,它能读出数据的整体分布和倾斜趋势(偏态)。\u003C\u002Fp\u003E\u003Cp\u003E通过图表(直方图、散点图也算描述统计)快速解读数据,是数据分析师的基础能力之一。\u003C\u002Fp\u003E\u003Cp\u003E大家想一下,如果是O2O的数据分析,能不能快速判断各城市的业务状况?如果是金融,能不能划分人群看它们业务之间不同的分布?如果是电商,不同类目的营销数据会有大的差异吗?再配合不同的维度细分,发挥的价值大着呢。\u003C\u002Fp\u003E\u003Cp\u003E箱线图是一种非常优秀的图表。虽然在Excel中会繁琐一些(赶紧更新到2016),但是在Python和R语言,也就是十秒钟的操作时间。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E——————\u003C\u002Fp\u003E\u003Cp\u003E案例中的练习数据,过去的历史文章有下载。下一章,讲解数据的频数和分布。\u003C\u002Fp\u003E\u003Cp\u003E欢迎关注我的个人公众号:tracykanc\u003C\u002Fp\u003E&,&updated&:new Date(&T13:46:31.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:17,&likeCount&:69,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T21:46:31+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\\u002Fv2-9fbe0bbb99e5d05efa3dad_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:17,&likesCount&:69},&&:{&title&:&解锁数据分析的正确姿势:描述统计(2)&,&author&:&qin-lu-17&,&content&:&\u003Cblockquote\u003E\u003Cp\u003E本文是\u003Ca href=\&http:\u002F\u002Fmp.\u002Fs?__biz=MjM5NjEyMDI2MQ==&mid=&idx=1&sn=c75cfca06dc0f8a4f6cf&chksm=bfff4ff58a20bcfba7d80a9ea68b126bbdc7ebaf9a9b2c1&scene=21#wechat_redirect\& data-editable=\&true\& data-title=\&《如何七周成为数据分析师》\&\u003E《如何七周成为数据分析师》\u003C\u002Fa\u003E的第十三篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示:如果您已经熟悉统计学,大可不必再看这篇文章,或只挑选部分。\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cbr\u003E\u003Cp\u003E描述统计学,往往研究数据的集中和离散。其中,各数据出现次数的情况,也是重要的一个研究方向。\u003C\u002Fp\u003E\u003Cp\u003E频数分布表示互不重叠的组别中每一组项目的个数。在分类型数据中,频数分布就是各个分类类目的总数。\u003C\u002Fp\u003E\u003Cimg src=\&v2-fb22fc4fde1b0c9b639fb7f.png\& data-rawwidth=\&1040\& data-rawheight=\&532\&\u003E\u003Cp\u003E上图就是数据分析师的岗位,按城市统计出的频数表,即各个城市的岗位数量。从应用角度看,数据透视表是专门用来计算频数的。我们也能把频数转换成百分比占比,这更直观。\u003C\u002Fp\u003E\u003Cp\u003E如果将其转换成图表,叫做条形图。饼图也可以描述频数,但是不常用。\u003C\u002Fp\u003E\u003Cimg src=\&v2-52ae8fbed5366b0dba779f.png\& data-rawwidth=\&1214\& data-rawheight=\&560\&\u003E\u003Cp\u003E数值型数据也适用于频数分布。以薪资数据为例,因为薪资千差万别,若粗暴地转换成条形图,就会丧失可读性。\u003C\u002Fp\u003E\u003Cp\u003E数值型数据必须经过分组转换,将数据划分到一个个区间范围内,可以间接认为把数值其转换成了分类数据。从业务角度理解,18和18.1、17.9的差异并不大,为什么不视为一组呢?\u003C\u002Fp\u003E\u003Cp\u003E组数划分一般选择5~20组,数据量越大,划分的组数就能越多。划分的不同区间范围叫做组宽,组宽是人为定义的,组宽最好等距。用1~80与81~100计算两组的频数,没什么意义。\u003C\u002Fp\u003E\u003Cp\u003E组宽和组数的选择相辅相成,组数多,组宽相对小,反之亦然。组宽=(最大值-最小值)\u002F组数。我们将案例数据的组宽定义为5,即0~4,5~9,10~14……\u003C\u002Fp\u003E\u003Cp\u003E用Excel函数 = int(salary\u002F5)即可正确获得分组后的结果,0代表0~4,1代表5~9。另外一种方式是用frequency( )函数,以数组形式输出。数据分析工具也能绘制频数表。\u003C\u002Fp\u003E\u003Cimg src=\&v2-fba809a126bf8e231f102d.png\& data-rawwidth=\&1080\& data-rawheight=\&508\&\u003E\u003Cp\u003E因为每一个数据只能属于一个组,所以要规定组的上下限。上文划归的0~4组宽,实际是零到除五之间的数值,包括4.99这类。因为数值型数据可以连续地划分,分类数据没有这顾虑。\u003C\u002Fp\u003E\u003Cp\u003E分组的过程也叫数据分桶bin,它是常见的一种数据清洗过程。在机器学习中,能提高模型泛化能力。\u003C\u002Fp\u003E\u003Cp\u003E将汇总的结果生成条形图,调整系列样式,系列重叠和间隙宽度均为0。它的正式名字叫直方图。\u003C\u002Fp\u003E\u003Cimg src=\&v2-d.png\& data-rawwidth=\&1374\& data-rawheight=\&616\&\u003E\u003Cp\u003E条形图和直方图最大的区别在于矩形的间隔。直方图的矩形没有间隔,之间完全重合(图中的白线是为了显示清楚才加上的)。因为数值型数据的特点是连续性,不能有空档造成断开。\u003C\u002Fp\u003E\u003Cp\u003E图中的直方图并不标准,横坐标的数字应该为[0,5,10,15,20…]且位于白线下方。我这里略过了。\u003C\u002Fp\u003E\u003Cp\u003E频数既能用相对数表示,也能用百分比表示。区别在于纵轴。后者用于方便对比。\u003C\u002Fp\u003E\u003Cp\u003E直方图的一个重要应用是提供了分布信息。不同直方图代表的业务意义不同。需要注意的是,分组将直接影响直方图的外形。\u003C\u002Fp\u003E\u003Cimg src=\&v2-3e10c1f5fa0a8e97c9fcf.png\& data-rawwidth=\&1080\& data-rawheight=\&416\&\u003E\u003Cp\u003E标准型的形态往往是中间高,两边低,呈中间的集中趋势。它代表一种稳定正常的形态。\u003C\u002Fp\u003E\u003Cimg src=\&v2-ac690f5cf56f34af292d1e7.png\& data-rawwidth=\&1088\& data-rawheight=\&422\&\u003E\u003Cp\u003E双峰型,一般是混合了多种数据源或者类别数据造成的。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-1f7b60f2caf2e47db9ce80cc57e12558.png\& data-rawwidth=\&1094\& data-rawheight=\&422\&\u003E\u003Cp\u003E锯齿型,一般是观察数据的手段和方法不稳定,才会造成直方图的波动。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-2ac10d26e8cbce22050caba.png\& data-rawwidth=\&1086\& data-rawheight=\&420\&\u003E\u003Cbr\u003E\u003Cp\u003E孤岛型的直方图,一般是业务上的非正常错误,比如工程零部件出了问题、产品出现了某Bug,造成凸出一块。\u003C\u002Fp\u003E\u003Cimg src=\&v2-daffcbf7d6357cbd2e44ebf.png\& data-rawwidth=\&1092\& data-rawheight=\&418\&\u003E\u003Cp\u003E陡峭型,往往是数据源缺失,或者被剔除一部分后,造成这种断崖式的折断。\u003C\u002Fp\u003E\u003Cimg src=\&v2-88ff1eacdf74e57e93ebd6329559dfbe.png\& data-rawwidth=\&1090\& data-rawheight=\&422\&\u003E\u003Cp\u003E偏峰型,分为左偏峰和右偏峰。我们也把它称呼为偏态,上图是一个右偏态。\u003C\u002Fp\u003E\u003Cp\u003E偏态是分布形态中的一种重要数值度量。很多数据并不呈现完全对称的分布,比如中国工资。\u003C\u002Fp\u003E\u003Cp\u003E在统计学上,众数和平均数之差可作为偏态的划分指标之一。如果平均数大于众数,称为正偏态/左偏态;相反,则称为负偏态/右偏态。\u003C\u002Fp\u003E\u003Cp\u003E为了更好的描述偏态的倾斜程度,我们引入偏态系数sk,sk=0时不偏不斜。另外还有一个峰度系数ku,描述分布的扁平瘦窄,ku以3为标准基准。两者组合,当 sk=0,ku=3时,分布呈正态;sk&0时,分布呈正偏态,sk&0时,分布呈负偏态;ku&3时曲线比较陡峭,ku&3时曲线比较平坦。\u003C\u002Fp\u003E\u003Cimg src=\&v2-f2dff61fbc.jpg\& data-rawwidth=\&450\& data-rawheight=\&165\&\u003E\u003Cp\u003E偏度和峰度的具体计算,用Excel的skew和kurt函数。数据分析库的描述统计也行。\u003C\u002Fp\u003E\u003Cp\u003E直方图的左右偏度,对应着不同的业务场景。左偏的典型业务场景就是考试成绩,大部分学生集中在60~90之间。而和钱有关的直方图,基本是右偏,比如销量、流水、消费等。\u003C\u002Fp\u003E\u003Cp\u003E理论讲完了,继续用数据分析师的薪资实战,偷懒用python代码完成了,Excel作图真的很累的……\u003C\u002Fp\u003E\u003Cp\u003E先观察整体的直方图,我们将其切分成二十组(和上文Excel图表的差异在于组宽组限的变化)。\u003C\u002Fp\u003E\u003Cimg src=\&v2-81faae9b46f6cbfbfe6083faae19d94c.png\& data-rawwidth=\&996\& data-rawheight=\&660\&\u003E\u003Cp\u003E这个数据同时呈现了双峰型和右偏型的分布。双峰型可能是因为我们混合了一二三线城市的数据,而右偏是因为薪资和钱有关,毕竟不是所有的数据分析师都能拿高薪。\u003C\u002Fp\u003E\u003Cp\u003E单纯过滤出北京的数据。\u003C\u002Fp\u003E\u003Cimg src=\&v2-cfa003eae18fcf749c172.png\& data-rawwidth=\&1204\& data-rawheight=\&662\&\u003E\u003Cp\u003E分布还是呈现乱七八糟的样子,为什么呢?因为我们选取的薪资是网络爬虫获取的薪资范围求平均,并不是真实的水平(很多HR复制黏贴瞎设的),这是不可避免的误差,那应该怎么办呢?可以适当的调整组数。\u003C\u002Fp\u003E\

我要回帖

更多关于 运营推广培训 的文章

 

随机推荐