今年各大超市里月饼促销力度较大,买一赠一、买一赠二等活动比比皆是,礼盒装月饼的价格大多在一二百元以下,动辄上千元的“天价”月饼已不见踪影。真的是这样吗,可有凭据可考?下面就追随数据分析公司-DataHunter的脚步,给你来一次无痛数据抓取和分析。
一、抓取数据
我们选择京东网站来抓取关键字『月饼』的数据。
工具的选择比较多,考虑的重点是无痛、免编程、免费,虽然DataHunter有很多编程大牛,但是为了节省时间,钱要花在刀刃上…
二、工具介绍
我采用了一款名为Hawk的开源爬虫工具,全程GUI操作,6得飞起。
https://github.com/ferventdesert/Hawk
具体的使用就不废话了,作者『沙漠之鹰』已经写了文档、拍了使用视频。
总之,作为一名拥有多年编程经验和数据抓取经验的选手,我对于Hawk的易用和功能是非常满意,很多高级功能还没学会。
三、数据样本
通过工具我一共抓取了3000条月饼数据,时间花费一分钟。
数据有一些列是用不到的,比如sku、spu,删掉之后直接把excel导入DataHunter(以下简称“DH”)的分析产品Data Analytics(以下简称“DA”)。
四、开始分析
1:规划
我打算用DA做一个看板:
包含今年月饼的均价、最低价、最高价;
然后还有三个饼图,分别是商家套路、口味分布、价格区间;
然后是一个口碑从低到高的柱图和今年商家的平均口碑值。
2:三个价格
可以看出,今年的月饼均价144元还是比较接地气,虽然还是出现了价格3198的烧饼,但是一元的又是什么饼?
3:商家套路饼图
从这张花饼可以看出:商家最多的套路是买->赠,满->减,总之吧,羊毛出在羊身上,买的没有卖的精。
4:口味分布环图
这个不多说了:五仁的地位还是难以撼动,榴莲(臭豆腐)馅的也有一足之地。
在这里要额外强调的是DA的数据加工能力,从数据样本可以看出,原始数据是不包含口味这一列的。
我们可以通过DA的产品增加一列计算字段,通过函数功能来完成字符的模糊匹配分类,示例如下:
怎么样,是不是很强大?
一些比较麻烦的数据清洗工作在计算字段这里可以很方便的完成。
5:价格区间环图
价格区间功能也是通过计算字段来完成的:
IF(`价格`<=100,'100以下',IF(`价格`>100 and `价格`<=300,'100-300之间',IF(`价格`>300 and `价格`<=600,'300-600之间',IF(`价格`>600 and `价格`<=1000,'600-1000之间','1000以上'))))
6:总览
把所有的图表放在一个看板里面排列好,大概就是下面这个样子。