英雄联盟女解说4p,如何写好一份数据分析报告?
本故事纯属虚构。
故事发生在花果山,主人公是一只初入职场的小猴子,名叫“嗨皮君”,他刚刚被水帘洞科技有限公司录用为数据分析专员。他的老板就是大名鼎鼎的数据分析师“猴子”,公司里的人都尊称他为“齐天大圣”。
花果山最近出现了一些状况,某些猴子感染了不明病毒,导致花果山发生了严重的疫情。现在水帘洞科技有限公司的员工都只能在家办公。
这天,老板齐天大圣通过“猴信”(花果山全民都在用的IM软件)找到嗨皮君,他说:“嗨皮君,你刚进公司不久,需要尽快熟悉公司的业务。现在还不能上班,但也不能把这些时间浪费了。这样,我给你一份数据,你好好研究分析一下,下周给我一份数据分析报告。”
接到任务,嗨皮君心里十分紧张:这可是进入公司的第一个任务啊,一定要好好表现!于是他认认真真地观看了老板齐天大圣以前做过的数据分析教学视频,还在网上查阅了很多相关资料。
以下便是嗨皮君的思考和写作过程:
一、分析背景及目的
数据源:Baby Goods Info Data-数据集-阿里云天池
这是一份母婴产品的销售数据,数据集各字段的含义如下:
我们需要从这些数据中发现某些规律或者异常,进而给运营团队提出建议。
二、分析思路
从“产品”和“用户”两个角度来分析:
1. 产品角度
分析销量随时间变化有什么规律分析哪些是热销产品,哪些是滞销产品,它们有什么特征
2. 用户角度
分析婴儿年龄和销量之间有什么关系分析婴儿生日和销量之间有什么关系
三、分析过程
1. 数据清洗
(1)确定分析表
把列名替换成中文,调整列宽和列与列的顺序:
(2)多删少补
① 处理重复项
由上述结果可见,并未发现重复项。
② 处理空值项
处理结果发现,产品信息表中的空值项均出现在商品属性字段下,由于商品属性是特定值,不可预估,在缺乏其他数据源的情况下没有办法进行填补,因此暂时忽略这些空值项。
婴儿信息表中未发现有空值项。
(3)一致化处理
把“购买时间”和“婴儿生日”用分列功能转换为日期格式,把“婴儿性别”转换成其真实含义。
(4)异常值处理
① 删除性别异常值
婴儿出生时的性别只有男和女两种可能,经过上面的清洗步骤,发现婴儿性别出现了异常值,删除掉。
② 删除日期异常值
经排序后观察发现,购买时间的区间范围是[2012/7/2,2015/2/5],没有极端异常值。
婴儿生日的区间范围是[1984/6/16,2015/8/15],产品销售时间在2012年~2015年,却出现了生日是1984年的婴儿,显然这个1984/6/16的项是异常项,故需删除。
③ 判断数据集是否还有可能存在异常值
对购买数量进行描述统计分析得:
变异系数=标准差/平均值*100%=2515%,说明数据集离散程度很高,可能存在部分极端值。
有时候某些异常值我们在数据清洗阶段无法发现,所以在结合图表分析的时候我们还会进行异常值的判断。
2. 结合图表分析
(1)分析销量随时间变化有什么规律
① 观察整体销售趋势
从图中发现,2014年11月出现了一个显著的销量高峰。
看到11月份销量暴涨我们通常会想到是由于双十一活动造成的,是否真的这样呢?
我们先假设是由于双十一活动造成的,那么销量暴涨背后必定是由于购买人数暴涨,下面便要收集数据证明购买人数也暴涨。
② 分析2014年11月出现销量暴增的原因
进一步,查看11月的销售情况:
从上图中可以看出,2014年11月销售暴增主要是因为11月13日这天的销量出现了暴增。
③ 分析2014年11月13日这天出现销量暴增的原因
再进一步,观察各个类别11月的销售情况:
从图中可以明显看到,主要销量来源于类别50014815,查询具体数据发现,11月13日总销量10138,类别50014815就占了10030(99.7%)。
④ 分析类别50014815在11月13日销量暴增的原因
把类别50014815历史所有的数据调出来看:
从类别50014815的历史销售数据可以发现,之前销售一直维持在一个比较平稳的水平,只是在2014年11月13日这天出现了暴增。
回到分析表,筛选出2014年11月13日类别50014815的销售明细查看。
从销售明细可以看出,该类别的商品由用户2288344467单次购买了10000件,占了99.7%(当天共10030),由此可得出以下结论:
不是双十一活动活动导致的。因为如果是双十一活动,必然很多用户购买导致销售量暴增,而不是只有一个用户购买大量商品;需要找工程师确认数据源是否记录有误;如果数据无误,则要将情况反馈给运营人员,跟踪该用户是否存在可疑行为(刷单,或者利用网站漏洞薅羊毛)。⑤ 排除异常值,重新再观察销售趋势
经过上述分析,用户2288344467购买的这条记录属于异常值,记录为“异常数据1”,应该删除,再重新分析销量随时间变化的规律。
把删除“异常数据1”后新的数据表再用折线图展示:
从图中可以看出类别38、类别50014815、类别50022520、类别122650008的销售情况都趋于平稳,类别28的销量起伏较大,类别50008168出现一个极端高峰点。
⑥ 分析类别50008168的销售出现极端高峰点的原因
通过同样的方法可以分析出类别50008168在2014年9月20日由用户173701616购入2748件,将此数据记录为“异常数据2”,处理方法参照异常数据1。
⑦ 分析类别28销量波动大的原因
同样地把“异常数据2”删除后,得到折线图:
观察发现类别28的波动比较大,查找到类别28的销售明细,按照销量倒序排序:
从表中发现类别28并没有明显的异常数据,不过前三项较其他项差距较大,应该标记为“关注数据”,结合更多的其他数据来分析原因。
⑧ 小结
类别50014815、类别50008168均出现异常值,分别标记为“异常数据1”、“异常数据2”,排除是营销活动导致的。因为如果是营销活动,必然很多用户购买导致销售量暴增,而不是只有一个用户购买大量商品;类别50014815、类别50008168这两项异常数据需要找工程师确认数据源是否记录有误;如果数据无误,则要将情况反馈给运营人员,跟踪该用户是否存在刷单情况(网站可能会存在漏洞,被黑客利用进行刷单薅羊毛),后续分析排除这两项数据;类别28标记出三项“关注数据”,目前没有其他数据结合分析,暂时保留。(2)分析哪些是热销产品,哪些是滞销产品,它们有什么特征
“热销”和“滞销”应该根据购买人数来判断。
① 找出热销和滞销商品
可以看出类别50008168商品最热销,而类别38商品的购买人数最少,结合之前的购买数量图可以看出类别38的销量也相对较少,因此类别38商品是滞销商品。
② 分析热销商品和滞销商品的购买人数变化
a. 先按【年份】来看
2015年只取到2月6日,数据不全,整体上可以看出所有类别的购买人数都是逐年增加。
b. 再按【季度】来看
整体上表现为第一季度下滑,第二季度上升,第三季度下滑,第四季度上升。
c. 最后按【月份】来看
从图中可以看出,滞销商品类别38的人数表现平稳,一直维持在较低的水平,由此可判断该类商品基本是靠自然流量,或者是冷门类别。
除类别38外,其他五类商品都有一些共同特征(第一季度下滑,第二季度上升,第三季度下滑,第四季度上升),而热销商品类别50008168的波动较大。
③ 分析热销商品类别50008168购买人数波动的原因
观察类别50008168折线图发现,每年的2月和7月会出现波谷,而5月和11月会出现波峰(2013年是12月出现波峰),因此把这些月份单独拿出来观察。
从图中可以发现,每年的11月和12月会出现明显的“凸起”,其他月份均是有起有伏,因此再把11月和12月份单独拿出来看:
至此,已经很明显可以看出,每年的11月11日和12月12日都会出现购买人数突增,可以判断这是商家们进行“双十一促销”和“双十二促销”活动导致的。
④ 小结
热销商品是类别50008168,每年“双十一”和“双十二”商家会进行促销活动,而且活动效果明显;滞销商品是类别38,购买人数和销量一直平稳在较低水平。(3)分析婴儿性别和销量之间有什么关系
① 计算男女人数比例
得出男女人数比例大概是1:1.1。
② 计算男女各自购买的商品数
得出男女购买商品数的比例大概是1:1.7。由此可见女性婴儿产品的销量要高于男性。
③ 比较各类别购买数量-男女差异
从图表中可以看出,只有类别50022520是男性略高于女性的,其他类别都是女性高于男性,主要差别在于类别50014815,女性购买量是男性的3倍。
④ 小结
女性婴儿产品的销量明显高于男性;只有类别50022520是男性略高于女性的,其他类别都是女性高于男性,主要差别在于类别50014815,其女性购买量是男性的3倍。(4)分析婴儿年龄和销量之间有什么关系
① 分析婴儿年龄和销量的关系
从图表中发现,产品的整体销量随着婴儿年龄的增长而下降,到了6岁之后就基本没有需求了。
② 分析各个类别的销量走势
从图中可以看出虽然整体销量都是随着婴儿年龄增长而下滑,但是各类别的侧重点不同:
类别50014815、类别50008168、类别28主打未满1周岁的母婴产品(0岁达到峰值);类别38、类别122650008主打1岁的母婴产品(1岁达到峰值);类别50022520主打未出生前的母婴产品(“未出生”达到峰值),应该主要面向孕妇和哺乳期妈妈。③ 小结
整体销量随着婴儿年龄的增长而下降,到了6岁之后就基本没有需求了;类别50014815、类别50008168、类别28主打未满1周岁的母婴产品;类别38、类别122650008主打1岁的母婴产品;类别50022520主打未出生前的母婴产品,应该主要面向孕妇和哺乳期妈妈。
四、结论和建议
最后把上面整个分析思路、分析过程以及分析过程中的小结整理出来,得到分析结论,并综合所有结论得出建议:
后记:
嗨皮君花了整整两天把这份分析报告写完,然后发给老板齐天大圣。老板看完之后,眯着眼笑了笑,回复道:“你的报告行文逻辑思路很清晰,结论和建议都比较到位,不错不错。你能告诉我你在写作过程中感触最深的是什么吗?”
嗨皮君想了想,回复道:
首先要理清楚分析思路,通过多维度分析思考,罗列分析点;正式进行分析前要先对数据分析表进行清洗:确定分析表——多删少补——一致化处理——异常值处理;根据罗列的分析点逐个分析,过程中需要结合对比分析、逻辑树分析、假设验证分析等分析方法进行分析;很多问题不是一开始就能发现的,而是要经历“构建图表——发现异常——往下深究(不断地深入追问)——逐层分析逼近真相——找到合理解释”的过程,因此需要有“抽丝剥茧”的精神;当数据关系到整体也关系到部分时,要警惕“辛普森悖论”,研究完整体得出结论后,还要研究整体中的部分,看是否也能得出相同的结论;每个分析点得出小结,最后把小结综合起来再总结,往往能够把结论表达得更全面;最后的建议根据综合结论得出来会更有意义。
如何提高分析概括总结能力?
概括和总结的能力属于基础能力,分析和思考的能力则要高级一些。因为概括和总结相当于一个删减的过程,比如把一本20万字的书删减成五千字、一万字;而分析和思考则相当于一个增添和创造的过程,比如想出一个新方法。
一、概括和总结能力1、锻炼概括和总结能力的基础方法是“删减”
比如梳理一本书的主要内容的时候,基础的方法就是根据书籍目录(书籍本身的逻辑、大纲),按照章节顺序,回到原文中,把每一章节的主要内容给它“删减出来”(通常情况下,章节的名称、前后段落、大小标题往往就是该章节的一个主要内容了)。
2、锻炼概括和总结能力的进阶方法是“整合”
继续以梳理一本书为例:章节目录是作者的思考和写作逻辑,我们自己要在阅读、理解和思考之后,形成自己的逻辑。也就是根据我们自身的理解和需要,对同一章节或不同章节的内容,进行拆分、重组,整合出一份新的内容。
3、用“金字塔结构”组织内容,提升概括和总结的逻辑性
金字塔的形式我们都不陌生,通常可以分为“塔尖、塔身、塔基”三个部分。塔尖就是你要表达的总的论点、结论、你要干什么,塔身就是你的分论点,塔基就是支撑你论点的论据。
也就是说,我们在组织内容时,要“自上而下(先塔尖,然后塔身、塔基)”,先说结论,然后再“逐步、分层次的展开”你的想法、分析、计划等具体内容。
金字塔原理(结构化思维)具体阅读:学会结构化思维,逻辑清晰的思考、写作和表达!
二、分析和思考能力1、在分析和思考问题的方法中,一个最简单有效的方法就是“拆解问题”。
拆解问题简单来讲,就是把一个复杂的问题拆分成若干个分支问题、小问题。通过对问题的拆分,最后会形成一个树状逻辑图,这个时候,我们就会得到一个个具体的、需要解决的问题清单,这个时候问题就会变得容易解决。
举个例子,假如你想“提高自己看书的速度”,那么你就可以想想为什么你的看书速度慢,是什么原因导致了你看书看得慢,然后对看书速度慢这个问题进行拆分,从而找到解决看书速度慢的具体方法,提高阅读速度。
比如下面这个横向结构图,就是我对“如何提高阅读速度”这个问题进行的拆分。通过这样的一个分析和拆分之后,我们就可以一目了然、思维清晰的知道影响阅读速度的原因和提高阅读速度的具体方法了。
拆解问题的一些常用切入点:
所谓切入点,也就是你准备按什么来细分,比如按颜色、按大小、按时间序列、按原因、按重要性等等,具体要根据你要解决的问题和目的来选择。一些常用的拆分或分类方法有:①二分法(比如男/女、已/未婚、专业/业余等等);②过程法(比如解决这个问题要几个步骤);③要素法(比如管理目标和任务的SMART原则);④公式法(比如销售额=单价×数量);⑤矩阵法(比如管理时间和任务的时间四象限法)。
2、提高分析和思考能力的关键:多读书多学习,增加脑海里的知识量
分析和思考的前提是你的大脑里得有东西。如果大脑里没有足够的知识,思考要么浮于表面、要么难于进行。这也是为什么要多读书多学习的一个原因所在。
补充阅读:如何锻炼出聪明的大脑,拥有超强的理解能力和思考能力?
于读书学习而言,最大的问题可能就在于读书效率的问题了。很多人的读书效率低,收获少,这也使得很多人都不喜欢读书。至于高效读书学习的方法,我在前面视频或文章中都分享过一些我的经验,比如:①学习“精英特速读记忆训练”掌握快速阅读和记忆的能力,拿其中的快速阅读来说,掌握到两三千字每分钟的一个阅读速度是非常容易的;②用“对答案”的方式进行阅读;③用“便签读书法”进行读书学习;④有效地做读书笔记等等。内容较多,就不赘述了,感兴趣的朋友可以自己去翻看。
营销策划中洞察和策略是一回事儿吗?
看到题主这个问题,作为有着一个十多年营销策划经验的老鸟,我来分享一下我的观点:营销策划中的洞察和策略不是一回事。为什么呢?我来解释一下:
营销策划中,分为几个重要步骤:创意、洞察、计划、执行、反馈、修正、完善。
在这几个步骤中:
“洞察”主要是根据自己的产品,从消费群体中寻找可以达成营销目的的切入点。洞察包括消费者心理、市场容量等方面。简单来说,洞察就是对市场的调查和分析,发现需求,为满足需求提供数据参考。你说的“策略”,主要是指以上步骤中的计划和执行两个方面。计划是指针对市场需求所制定出来的市场拓展实施步骤;执行是指按照实施步骤完成的工作进度。当然,这中间包括由于市场误差可能出现的调整预案。我以我以前做过的一个案例来解释你说的这两个概念吧:
2018年的时候我在沧州河间做过一场牡丹旅游节活动。因为当时赏花是全国的旅游热潮,牡丹又是中国的国花,大众有需求。那么我的洞察怎么体现呢?
首先,对目标消费群体的分布定位:河间牡丹旅游节,一定是针对河间周边的乡镇居民为主,周边地区城市为辅的人群分布。所以这是我们对消费人群的洞察,主要分析的点是在于:他们的旅游消费习惯、消费能力、出行便捷性等几个方面。第二,我们分析牡丹在消费群体中的地位,以及用什么样的内容来达成他们的消费高潮点。因为这个群体是中产阶级普通大众,因此他们的审美就不能以阳春白雪的艺术表现来吸引,他们会对下里巴人的狂欢式活动更有兴趣。所以我们请了吉尼斯团队表演民俗气功类演出。以上就是我们对市场的预判、对消费者的消费心理分析。这个就是洞察。那么我们是怎样做的策略呢?
确定了市场和人群,那就是针对他们做出来引流计划。因为这些群体主要分布在县城,他们的信息接触面较窄,所以我们就制定了以县城旅行社为主要载体宣传、引客的营销计划。当然这中间可能出现的一个问题就是旅行社不配合,针对他们不配合我们应该采取怎样的应对策略。这些就是我们的营销计划。然后就是安排人按照计划一步步实施下去。就是题主说到的“策略。通过以上分析,你应该明白了“洞察”和“策略”的不同了吧?
希望我的观点能够帮助到你。
【有空读书】分享实用干货,催化职场人生。如果您觉得有用的话,请关注我,多交流。
伊芙雷雅的4P门是不是真的?
假的,他堂弟小智和某些解说都已经澄清了。
子虚乌有的事。G63和G500差别在哪里?
对于比较了解奔驰这个品牌的人来说,奔驰大G是有两款车型的,其中尤以奔驰的G63和G500的对比最为明显,那么,差价100万的奔驰G63和G500究竟价格差在哪里呢?
奔驰g500是普通版g级,而奔驰g63是高性能版本的AMG。外观造型上两者没有太大差异,不过细节上还是可以分辨出两者区别。而经过特殊调校后,相同排量的奔驰g63迸发出更强劲力量,V8发动机最大功率可达585马力,最大扭矩为850N·m。接下来我们分别看一下奔驰g63和g500。
普通版奔驰g500外形上同样延续g级家族设计,方正盒子造型几乎不可能做太大改动,只有在基础上添加了一些现代化设备。
AMG版本奔驰g63作为奔驰最贵的越野车,其动力和越野性能堪称怪兽级别。从前脸可以快速分辨奔驰g63和g500,奔驰g63采用传统的AMG家族设计,看起来更加精致。车身侧面隐藏的两侧共四出排气管更是将自己内心的强劲隐藏起来。
内饰普通版和AMG版基本保持一致,百万级别保证了两者配置绝对能够满足用户,真皮座椅、前后座椅加热、前排座椅通风、柏林之声音响等休闲娱乐配置一应俱全,车道偏离预警、主动刹车、疲劳驾驶提升等安全配置也不会落下。