以某招聘网站的数据分析师招聘信息为样本数据,选取一个角度进行分析。熟悉使用Excel进行数据分析的基本步骤和常见操作
前言
明确总体目的:
以某招聘网站的数据分析师岗位的招聘信息为数据基础,探索不同城市数据分析师需求特点以及薪资情况。
分析前准备
在做数据分析之前,需要对整体数据做一个初步认识,各列数据有什么意义,哪些列是分析必用,哪些是可以暂时有用,哪些是明确无用的。

城市:因为需要分析不同城市的情况,还会做出对比,因此城市是分析必用的职位ID:在数据无重复情况下,职位ID应当是每个招聘岗位的唯一ID,是必须用到的职位名称:此表中职位名称并没有一个统一,还有些非数据分析师岗位名称,后面处理数据时需要用到薪水:必用的工作年限要求:必用的
以上这些列是此次分析不用用到的列数据。
暂时用不到的列,诸如公司ID、公司大小、职能所属、教育要求、公司所属领域,此次不做分析(如从其他角度分析,则依然有用)
明确用不到的列,如公司全名、公司简称、公司所在商区、职位福利
此外,清楚各列数据的数据类型,如字符串、数值等
明确分析问题
- 不同城市对数据分析师的需求量比较
- 数据分析师在不同城市的平均薪资对比
- 工作年限对薪资影响
- 不同工作年限的需求量比较
数据处理
数据清洗工作是进行数据分析前所必须完成的工作,数据的整洁直接影响数据分析结果的呈现。
1.理解数据,选择重点分析对象
在分析前准备中提到,原始数据中包含很多列数据,有些数据不是重点分析对象,可将其隐藏。

隐藏前

隐藏后
2.删除重复值
本数据中一个 职位ID 对应一个职位,检查 职位ID 列是否有重复,如果有则将重复值删除
具体操作:
条件格式>突出显示单元格规则>重复值

数据>删除重复值>选择列,选择职位ID列

3.处理缺失值
检查每一列的值是否一致,查看是否存在缺失值
选中所在列:开始>查找与选择>定位条件>空值>输入值
缺省值处理的常用方法:
- 通过人工手动补全
- 删除缺省值
- 用平均值替代缺省值
- 用统计模型计算出的值去代替缺省值
4.一致化处理
把所有的数据处理成容易使用公式或数据透视表的形式
数据表中 公司所属领域 这一列,有些公司从属于一个行业,有些公司则从属于两个行业,此时需要将这两个行业分割开来。使用 分列。


数据表中 薪水 这一列是以区间方式表示的,把最低薪水和最高薪水分隔开来以便使用图表查看薪水情况
此处涉及到对表格字符串截取的操作,通常使用函数LEFT/RIGHT/MID截取,用函数FIND和LEN进行定位。
观察发现 薪水列中数据有出现大小写K/k混用情况,先将他们统一替换成小写k

插入两列,分别提取最低薪水和最高薪水。

因 薪水 中一些单元格内是“xx以上”或“xx以下”,不能直接套用复合函数,我们可以先对单元格进行判断,不是以 “k”结束的单元格,最高薪水暂定与最低薪水相同。

经过单元格计算得到的最高薪水和最低薪水是文本型数据,无法正常按照数值进行排序,需要将结果复制出来,新建列表。
流程如下:
开始>选择性粘贴>勾选值和添加,然后补全列表名

可实现正常排序

职位名称 列内职位名称种类非常多,有些甚至不是数据分析师,需要先初步判断下那些需要留存。

可以提取含有“数据分析”、“分析师”、“数据科学”、“数据运营”的行。
新建一列表名“数据分析师”,使用函数IF/COUNT/FIND,如果单元格中含有“分析”、“数据科学”、“数据运营”,则返回“是”

筛选 数据分析师 列中为“是”的所有行,,完成对数据分析师列数据的统一。
复制整个表数据作为最终数据

构建模型
数据经过清洗之后,需要构建一套模型,以实现分析这些数据的目的。
如前面提到,想要知道不同城市的数据分析师招聘岗位对不同工作年限的人是怎样的需求情况,利用数据透视功能,得到以下数据透视表:


想要获取不同工作年限的岗位提供的薪资水平情况,可得到以下数据透视表:

想要获取不同城市的平均薪资水平,可得以下数据透视表:


利用“描述性统计”功能可以堆平均薪资进行分析,
数据>数据分析>描述统计

描述性统计结果:

数据可视化
根据前面生成的数据透视表,可作出以下可视化图标:
- 主要城市数据分析师需求情况

- 各城市数据分析师平均薪水情况

- 不同工作年限的平均薪水对比

- 深圳市不同工作年限数据分析师的平均薪水和需求对比

结论
- 从需求情况可以看出,数据分析师的工作机会主要集中在一线城市,北京居首;新一线城市中也有一些机会,接近一线城市,如杭州7.17%与广州8.42%差距已不大
- 从各城市平均薪水表可以看到,该岗位在深圳的薪水最高,其次是北京、上海
- 随着经验累积,薪酬不断提升,3-5年工作经验的薪水已接近1-3年经验的两倍,10年以上经验的虽超过3倍,但该阶段需求很小,数据量小,难以反映真实情况
- 从深圳的数据分析师需求来看,因为职业较新,主要工作机会给予集中在1-5年有经验的人身上