Panalyz

游戏运营数据分析——指标体系

2020-06-04T09:09:14.000Z

待补充完善

Photo by Nassim All on Unsplash

1 激活率和激活且登录率

1.1 激活

激活是指用户安装好客户端以后连接网络打开客户端

激活率：激活总量/安装总量

1.2 激活且登录率

激活且登录量是指用户激活后进入游戏的用户数量

激活且登录率：激活且登录总量/激活码激活总量

1.3 登录率的效果参考：

优秀：登录率大于90%
较好：登录率80%~90%
一般：登录率60%~80%
较差：登录率小于60%

2 留存率

留存率是指新增用户在一段时间内再次登录游戏所占的比例，有次日留存、7日留存、30日留存、周留存、月留存等等。

2.1 日留存率

次日留存率：第1天新增用户在第2天登录过的人数/第1天新增用户量
7日留存率：第1天新增用户在第7天登录过的人数/第1天新增用户量
30日留存率：第1天新增用户在第30天登录过的人数/第1天新增用户量

2.2 周留存率

周留存率：第1周新增用户量在第二周登录过的人数/第1周新增用户量

2.3 月留存率

月留存率：第1月新增用户量在第2月登录过的人数/第1月新增用户量

2.4 留存率评价（大致参考标准）

优秀：次日留存率超过65%，3日留存率超过55%，7日留存率超过35%
良好：次日留存率超过50%，3日留存率超过35%，7日留存率超过25%
一般：次日留存率超过35%，3日留存率超过25%，7日留存率超过15%

3 用户付费指标

3.1 付费率

付费率是指每日付费用户占活跃用户的比例

付费率：付费人数/活跃人数

3.2 ARPPU

ARPPU是指平均每付费用户收入

ARPPU：付费金额/付费人数

3.3 ARPU

ARPU是指每个用户平均收入

ARPU：付费金额/活跃人数

3.4 付费指标评价

原则上肯定是越高越好。以手游为例，不考虑手游类型，一般ARPU超过6元为较好产品，低于3元为较差产品。

4 导入用户成本

4.1 CPC（Cost Per Click）

CPC指单个点击用户的成本

CPC：广告投入总价/所投入的广告带来的点击用户数量

4.2 CPA（Cost Per Action）

CPA指平均每个激活用户的成本

CPA：广告投入总价/所有投入广告带来的激活用户数量

4.3 CPR（Cost Per Register）

CPR指平均每个注册用户的成本

CPR：广告投入总价/所有投入广告带来的注册用户数量

CPL指平均每个登录用户的成本

CPL：广告投入总价/所有投入广告带来的登录用户数量

CPC、CPA、CPR、CPL都是衡量广告投放效果重要指标，用户转化漏斗情况

CPC < CPA < CPR < CPL
各项指标的成本越低，说明效果越好
最终还是要参考用户在游戏内的留存和付费情况

5 LTV（Life Time Value）

LTV是指用户在生命周期内为该游戏付费的总计，可以看成是一个长期积累ARPU值

每个用户平均LTV：每月ARPU*用户按月计的平均生命周期
LTV与CPA关系：当CPA > LTV时，理解为获取用户的成本大于用户产出，可以判断市场投放效果，以及判断是否有必要继续投放或停止投放尽早止损。

6 ROI（Return On Investment）

ROI是指投资回报率，衡量产品付出与收获

ROI参考的价值

衡量产品推广的盈亏
筛选推广渠道，分析每个渠道的流量变现能力
实时分析渠道付费流量获取的效应，调整投入力度
评估后续推广活动是否成功
评估直接或间接ROI的推广又是或劣势
综合其他数据（留存，新增，付费等）调整游戏方向，进行流量转化

参考：
[https://zhuanlan.zhihu.com/p/135467184]
[https://zhuanlan.zhihu.com/p/136273219]

Python实现10大排序算法

2020-06-01T12:44:05.000Z

Python实现10种排序算法。通过Java版改写，可能有句法不那么Python的问题。另外，第10个还没写出来，有空再补上。

Bubble Sort 冒泡排序

比较相邻的元素，如果第一个比第二个大，就交换他们。对每一对相邻元素做相同的工作，从开始第一对到结尾的最后一对，这样在最后的元素应该会是最大的数。针对所有的元素重复以上的步骤，除了最后一个重复以上步骤，直到排序完成.

def bubble_sort(arr):
    for i in range(len(arr) - 1):
        for j in range(len(arr) - i - 1):
            if arr[j] > arr[j + 1]:
                arr[j], arr[j + 1] = arr[j + 1], arr[j]
    print(arr)
    return

list1 = [1, 23, 43, 2, 3, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
bubble_sort(list1)

Selection Sort 选择排序

首先从未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然后从剩余未排序元素中继续寻找最小（大）元素，移动到已排序末尾。以此类推，直到所有元素均排序完毕

def selection_sort(arr):
    for i in range(len(arr) - 1):
        min_index = i
        for j in range(i + 1, len(arr)):
            if arr[j] < arr[min_index]:
                min_index = j
        arr[i], arr[min_index] = arr[min_index], arr[i]
    return arr

list1 = [1, 23, 43, 2, 3, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
print(selection_sort(list1))

Insertion Sort 插入排序

通过构建有序序列，对未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入

def insertion_sort(arr):
    for i in range(1, len(arr)):
        previous = i - 1
        current = arr[i]
        while previous >= 0 and arr[previous] > current:
            arr[previous + 1] = arr[previous]
            previous -= 1
        arr[previous+1] = current
    return arr

list1 = [1, 23, 43, 2, 3, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57,24, 723]
print(insertion_sort(list1))

Shell Sort 希尔排序

简单插入排序的改进版，它与插入排序不同之处在于，他会优先比较距离较远的元素希尔排序又叫“缩小增量排序”

def shell_sort(arr):
    gap = len(arr) // 2
    while gap > 0:
        for i in range(gap, len(arr)):
            while i - gap >= 0 and arr[i] < arr[i - gap]:
                arr[i], arr[i-gap] = arr[i - gap], arr[i]
                i -= gap
        gap = gap // 2
    return arr

list1 = [1, 23, 43, 2, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
print(shell_sort(list1))

Merge Sort 归并排序

将已有序的子序列合并，得到完整有序的序列；即先使每个子序列有序，再使子序列段间有序

def merge_sort(arr):
    if len(arr) < 2:
        return arr
    middle = len(arr) // 2
    left = merge_sort(arr[:middle])
    right = merge_sort(arr[middle:])
    return merge(left, right)

def merge(a, b):
    aux = []
    while len(a) > 0 and len(b) > 0:
        if a[0] <= b[0]:
            aux.append(a.pop(0))
        else:
            aux.append(b.pop(0))
    else:
        if len(a) == 0:
            aux += b
        else:
            aux += a
    return aux


list1 = [1, 23, 43, 2, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
print(merge_sort(list1))

Quick Sort 快速排序

在序列中选择一个基准点，然后分别从序列的两段扫描，设两个指示标志。从后半部分开始，如果有元素比该基准点小，就交换两个指示标志位置的值，然后从前半部分开始扫描，发现有元素大于基准点的值，就交换两个指示标志位置的值，如此往复循环，直到俩指示标志的前者与后者相当或前者大于后者，交换位置，一次排序完成了。以后采用递归的方式，分别对前半部分和后半部分排序

def quick_sort(arr):
    return q_sort(arr, 0, len(arr) - 1)

def q_sort(arr, lo, hi):
    if lo < hi:
        pivot = partition(arr, lo, hi)
        q_sort(arr, lo, pivot - 1)
        q_sort(arr, pivot + 1, hi)
    return arr

def partition(arr, lo, hi):
    pivot_value = arr[hi]
    i = lo - 1
    for j in range(lo, hi):
        if arr[j] <= pivot_value:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]
    arr[i + 1], arr[hi] = arr[hi], arr[i + 1]
    return i + 1

list1 = [1, 23, 43, 2, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
print(quick_sort(list1))

def quick_sort(arr, lo, hi):
    if lo > hi:
        return
    stack = []
    stack.append(lo)
    stack.append(hi)
    while stack:
        lo = stack.pop(0)
        hi = stack.pop(0)
        if hi - lo <= 0:
            continue
        pivot = arr[hi]
        i = lo - 1
        for j in range(lo, hi):
            if arr[j] <= pivot:
                i += 1
                arr[i], arr[j] = arr[j], arr[i]
        arr[i + 1], arr[hi] = arr[hi], arr[i + 1]
        stack.extend([lo, i, i + 2, hi])

Heap Sort 堆排序

堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子节点的键值或索引总是小于（或大于）它的父节点。
将初始待排序关键字序列(R1,R2,R3,...Rn)构成一顶堆，此堆为初始的无序区：将堆顶元素R[1]与最后一个元素R[n]交换，此时得到新的无序区（R1,R2,R3,...Rn-1）和新的有序区，且满足R[1,2,3,...,n-1] <= R[n]；由于交换后的新的堆顶R[1]可能违反堆的性质，因为需要对当前无序区（R1,R2,R3,...,Rn-1）调整为新堆，然后再次将R[1]与无序区最后一个元素交换，得到新的无序区（R1,R2,R3,...,Rn-2）和新的有序区（Rn-1,Rn）
不断重复此过程直到有序区的元素个数为n-1，则整个排序过程完成

def heapify(arr, i, k):
    # 构建堆的规则
    j = 2 * i
    while j <= k:
        if j < k and arr[j] < arr[j + 1]:
            j += 1
        if arr[i] >= arr[j]:
            break
        arr[i], arr[j] = arr[j], arr[i]
        i = j
        j *= 2

def heap_sort(arr):
    # 从最后一个有子节点的节点开始构建堆
    last = len(arr) // 2 - 1
    for i in range(last, -1, -1):
        heapify(arr, i, len(arr) - 1)

    # 将最大的数放在堆的最后一个位置，并将剩余部分重新构建堆
    for k in range(len(arr) - 1, 0, -1):
        arr[0], arr[k] = arr[k], arr[0]
        heapify(arr, 0, k - 1)

if __name__ == "__main__":
    arr = [1, 23, 43, 2, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
    heap_sort(arr)
    print(arr)

list1 = [1, 23, 43, 2, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]

Counting Sort 计数排序

计数排序不是基于比较的排序算法，其核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。
作为一种线性时间复杂度的排序，计数排序要求输入的数据必须是有确定范围的整数，找出待排序的数组中最大和最小的元素；统计数组中每个值为i的元素出现的个数，存入数组C的第i项；对所有的计数累加，反向填充目标数组：将每个元素i放在新数组的第C(i)项，每放一个元素就将C(i)减去1

def counting_sort(arr, largest):
    bucket = [0]*(largest + 1)
        sorted_index = 0

    for i in range(len(arr)):
        bucket[arr[i]] = arr.count(arr[i])

    for j in range(len(bucket)):
        while bucket[j] > 0:
            arr[sorted_index] = j
            sorted_index += 1
            bucket[j] -= 1
   return arr

list1 = [1, 23, 43, 2, 24, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
print(counting_sort(list1, 4452))

Bucket Sort 桶排序

桶排序是计数排序的升级版。它利用函数的映射关系，高效与否的关键在于这个映射函数的确定，假设输入数据服从均匀分布，将数据分到有限数量的桶里，每个桶分别排序。每个桶里的排序，有可能再使用比的排序算法，或是以递归方式继续使用桶排序

设置一个定量的数组当做空桶
遍历输入数据，并且把数据一个一个放到对应的桶里
对每个不是空的桶进行排序
从不是空的桶里把排好序的数据拼接起来

def bucket_sort(arr, bucket_size):
    if len(arr) == 0:
        return arr

    min_value = arr[0]
    max_value = arr[0]
    for i in range(len(arr)):
        if arr[i] < min_value:
            min_value = arr[i]
        if arr[i] > max_value:
            max_value = arr[i]

    # bucket_size = 5
    bucket_count = (max_value - min_value) // bucket_size + 1
    buckets = [[]*i for i in range(bucket_count)]

    for i in range(len(arr)):
        buckets[(arr[i] - min_value) // bucket_size].append(arr[i])
    # print(buckets)

    arr = []
    for i in range(len(buckets)):
        insertion_sort(buckets[i])
        for j in range(len(buckets[i])):
            arr.append(buckets[i][j])

    # print(buckets)

    return arr


list1 = [1, 23, 43, 2, 24, 54, 6, 34, 81, 99, 342, 3, 4452, 344, 234, 44, 55, 67, 57, 24, 723]
print(bucket_sort(list1, 50))

母婴产品消费数据分析(MySQL/Tableau)

2020-05-22T06:56:03.000Z

Photo by Nynne Schrøder on Unsplash

复刻知乎网友的分析，终点还是熟悉过程，练习MySQL和Tableau

1 分析目的

了解母婴行业的发展趋势
分析找到重点客户
把握母婴产品主要使用对象
分析各类商品特征
找到受欢迎的母婴产品

2 理解数据

数据来自淘宝和天猫上购买母婴商品，时间段为2012年7月2日——2015年2月5日
包含两个数据集，
tianchi_mum_baby.csv 包含客户孩子的生日和性别

Column	user_id	birthday	gender
描述	客户ID	生日	性别

tianchi_mum_baby_trade_history.csv 包含历史交易记录

Column	user_id	auction_id	cat_id	cat1	property	buy_mount	day
描述	客户ID	商品ID	商品子类ID	商品大类ID	商品属性	购买数量	交易时间

3 数据清洗

由于 property 列是对商品属性的描述，对后续分析几乎无作用，所以将其剔除。

打开Navicat，连接MySQL，新建数据库 Mum_Baby ，相关参数如下：

在 Mum_Baby 数据库下的表里右键选择 导入向导，开始导入数据集

此处导入数据容易遇坑，我这次就遇上了，详情可查看另外一篇文章
MySQL导入数据 Data too long for column

3.1 删除重复值

查询表 mum_baby_trade_history 记录数

SELECT COUNT(*) FROM mum_baby_trade_history;

返回结果 29971

通过非重复计数新建表 trade_history 并查询记录数

CREATE TABLE trade_history 
SELECT DISTINCT * FROM mum_baby_trade_history;
SELECT COUNT(*) FROM trade_history;

返回结果 29971，与直接查询结果相同，说明没有重复值

3.2 缺失值处理

先判断是否有NaN值

SELECT * FROM mum_baby_trade_history
WHERE user_id IS NULL
	OR auction_id IS NULL
	OR cat_id IS NULL
	OR cat1 IS NULL
	OR buy_mount IS NULL
	OR `day` IS NULL;

返回结果为空，说明没有NaN值

3.3 空字符串处理

先判断是否有缺失值

SELECT * FROM mum_baby_trade_history
WHERE user_id = ''
	OR auction_id = ''
	OR cat_id = ''
	OR cat1 = ''
	OR buy_mount = ''
	OR `day` = '';

返回结果为空，说明无缺失值

3.4 错误信息处理

mum_baby 表中 gender 存在一些值为 2，可能为错误信息，也可能是婴儿为出生时产生的订单，客户不能判断婴儿性别。

CREATE TABLE baby_birthday 
SELECT * FROM mum_baby 
WHERE gender = 0
	OR gender = 1;

这里暂时将其剔除，同时新建一个表 baby_birthday

4 数据分析

以下分析，数据库操作部分通过Tableau的自定义SQL提取数据库表的，然后通过Tableau可视化

4.1 总体业绩分析

4.1.1 母婴行业发展趋势及背景

SELECT 
	COUNT(DISTINCT user_id) AS 每年客户数,
	COUNT(*) AS 每年订单数,
	extract(YEAR FROM `day`) AS 年
FROM
	trade_history
GROUP BY extract(YEAR FROM `day`)

根据2012年——2015年每年订单量柱形图，发现2014年全年订单量相较2013年增长超过50%。
注：2012年和2015年数据不是全年数据，无法参与对比。

尝试通过PEST方法进行初步分析增长原因。
PEST（Political、Economic、Social、Technological）分析模型是环境分析的一种方法，通过对政治、经济、社会、技术四方面的若干影响因素进行总结和列出相对关键和重要的影响因素。

政治因素：2013年12月28日，《关于调整完善生育政策的决议》通过，一方是独立子女的夫妇可生育两个孩子的单独二孩政策依法启动实施。政策的放宽，意味着符合条件的家庭可以生育二孩，对母婴市场是利好政策。
经济因素：首先是中国人均GDP这几年稳步增长，国民的消费水平也同步提高；其次是2014年互联网企业赴美IPO，京东、阿里均在美国上市。
社会因素：其一，国家对优生优育的宣传持续力度加大；其二，这几年新出生人口基数大，1600余万，且有小幅增长。
技术因素：母婴产品多样化，这些都是技术进步带来的。

从以上PEST模型中，对增长影响较大的因素，推断为政策因素（独立二孩）和社会因素（优生优育和人口基数大）。

4.1.2 母婴行业的淡季和旺季

取每月订单量进行对比

SELECT
    count( DISTINCT user_id ) AS 每月客户数,
    count( * ) AS 每月订单数,
    extract( YEAR FROM `day` ) AS 年,
    extract( MONTH FROM `day` ) AS 月 
FROM
    trade_history
GROUP BY
    extract( YEAR FROM `day` ),
    extract( MONTH FROM `day` )

根据月份统计订单量折线图，可以发现2013年与2014年趋势走向相似：
* 3-5月、8-11月呈正增长
* 6-7月、12-1月呈负增长
其中2月年度最低点，11月达到峰值。
筛选2013年和2014年，以订单量作盒须图，视订单量为前25%的月份为旺季，订单量后25%的月份为淡季

* 旺季：10、11、12月
* 淡季：1、2、7月

4.1.3 Top10消费日

提取订单量前十的日期

SELECT
    EXTRACT( YEAR FROM `day` ) AS 年,
    EXTRACT( MONTH FROM `day` ) AS 月,
    EXTRACT( DAY FROM `day` ) AS 日,
    EXTRACT( * ) AS 每日订单数
FROM
    trade_history
GROUP BY
    EXTRACT( YEAR FROM `day` ),
    EXTRACT( MONTH FROM `day` ),
    EXTRACT( DAY FROM `day` ) 
ORDER BY
    COUNT( * ) DESC LIMIT 10

从泡泡图可以看出，双十一单日销量最高，其次是双十二。
没有看到2012年双十二，是因为双十二购物节始于2013年。

4.1.4 全年订单量最低月份

筛选2013年2月和2014年2月每日订单量做折线图对比

折线图呈现出该月每日订单量曲线在2013年和2014年差别很大，分析原因可能是过年期间全国放假时间不同导致。

2013年的春节假期2月9日——2月15日，2014年春节假期1月30日——2月5日
所以订单量下降到回升，是因为春节节前至春节期间全国放假，物流停运，节日之后复工，订单量上升。

4.1.5 全年订单量最高月份

筛选2012年、2013年、2014年的11月份做折线图对比

整个11月份的日订单量趋势特征非常明显，11.11日当日订单量占比整个11月总订单量20%左右，且比重逐年增加。说明双十一购物节受到广泛认同，且影响越来越大。

4.2 客户价值分析

4.2.1 用户回购率

根据不同购买次数来统计客户量

SELECT 
    COUNT(user_id) AS 购买次数,
    user_id
FROM
    trade_history
GROUP BY
    user_id

只有25名客户有复购（购买次数大于1次）行为，回购率仅为0.083%，用户粘度极低。

4.2.2 母婴市场主要消费人群

根据有复购行为的客户最后一次消费时间节点，老客户订单量与当月订单量对比

提取最近消费时间

SELECT
    user_id,
    MAX(`day`) AS 最近消费时间
FROM
    trade_history
GROUP BY
    user_id
ORDER BY
    MAX(`day`) DESC

提取消费频次大于1的客户信息

SELECT 
    user_id
FROM
    trade_history
GROUP BY
    user_id
HAVING COUNT(user_id) > 1

将二者联接

前面的分析已经知道母婴产品市场的回购率很低，大部分客户都是一次消费。在有回购的客户中，有5名客户在2015年1月进行了复购，而当月总计客户数为1314位，由此看出母婴市场主要还是依靠源源不断的新客户。

4.3 用户指标

将 baby_birthday 与 trade_history 表联结

前面提到婴儿生日性别表里有 gender 为 2 的数据，此处将其剔除，选用剔除之后的婴儿生日性别表 baby_birthday

4.3.1 用户性别对比

930个用户中，男女比例差距很小，男生比例只比女生多6%

4.3.2 目标用户年龄段

将用户根据年龄分成6个阶段，在Tableau里新建度量命名 年龄段：

IF (DATEDIFF('year',[birthday],[day])) >= 6 THEN '学龄期'
ELSEIF (DATEDIFF('year',[birthday],[day])) >= 3  THEN '学龄前期'
ELSEIF (DATEDIFF('year',[birthday],[day])) >= 1  THEN '幼儿期'
ELSEIF (DATEDIFF('year',[birthday],[day])) >= 0  THEN '婴儿期'
ELSEIF (DATEDIFF('month',[birthday],[day])) >= -10 THEN '胎儿期'
ELSE '备孕期'
END

可以看出婴儿期和幼儿期，既0-3岁的宝宝是母婴市场占比最大的用户群。有一部分客户在婴儿未出生就开始准备母婴用品，3岁之后需求量开始下降。

4.4 商品类指标

4.4.1 商品特征

添加新自定义SQL，提取每个商品大类对应商品子类数量，

SELECT
    cat1 '商品大类',
    COUNT(distinct cat_id) '子类数量'
FROM
    trade_history
GROUP BY
    cat1

添加自定义SQL，提取商品大类对应订单量

SELECT
    cat1 '商品大类',
    COUNT(cat1) '大类订单量'
FROM
    trade_history
GROUP BY
    cat1

为了获取每个商品大类下子类的订单量，需要再添加 trade——history，将他们联结

根据上表数据和条形图，可以发现商品特征如下：

销量最好，产品种类一般：5008168
销量一般，产品种类丰富：28、50014815
销量较低，产品种类丰富：50022520
销量极低，产品种类较少：122650008、38

根据上面各类商品及子类订单量条形图绘制的箱线图，以此箱线图可知：

商品大类 5008168 的中位数仅为33，但由于6款爆款产品以及销量大部分高于中位数的商品，使得 5008168 的总体销量位居第一
商品大类 28 的中位数更低，仅为8，且聚集度高，说明大量的产品销量不好，使得该类产品总体单量表现一般
商品大类 50014815 中位数为12，情况与 28 类似。
商品大类 50022520 中位数为5，且聚集度高，且无表现突出产品，但因种类繁多，总体单量变现不至于最差
商品大类 122650008 中位数为30，上四分位达到203，超过总体销量排名第一的 5008168，可以看出前25%得商品在婴幼儿市场中的受欢迎程度很高，但因产品种类少，虽然总体单量表现不佳
商品大类 122650008 中位数仅为9，且聚集度高，而且产品种类少，其中单子类 211122 达到该类别总量的41.73%

4.4.2 最受欢迎的商品

根据各个商品大类，分别选出最受欢迎产品，可以通过树状图展示

5 总结

互联网时代大背景下，电商平台为人们购物选择提供了极大便利，技术进步为产品的更迭创新提供支撑，优生优育的观念之下，母婴产品的需求变得大且广，仅2014年对比2013年，订单量即完成了50%以上的增长
每年10-12月为母婴行业的旺季，购物节（双十一、双十二）尤为火爆，卖家需要针对这段时间指定相应的活动方案，并且提前预热宣传，提升店铺曝光量，吸纳更多新客户
在长达两年半的时间段内，仅有回购客户占比不足0.1%，说明母婴行业内客户粘性非常低，针对这一现象，可进行两方面准备：其一，通过一些手段，诸如会员制、积分制、累积购物优惠、分享或邀请有礼等方式是新客户变成老客户，突破二次消费；其二，服从客观规律，加大曝光率，吸引更多的新客户
0-3岁的宝宝是母婴市场占比最大的用户群，增加在这个客户群体对应产品的开发，进一步提升客户消费量
每种品类里都有爆款产品，销售量都远比同类其他产品高，可以尝试多打造爆款，提升整个品类的销量。

『此文复现 https://zhuanlan.zhihu.com/p/68105677 侵删』

MySQL导入数据 Data too long for column

2020-05-20T10:14:36.000Z

太长不看版本：Terminal连接进MySQL之后 set @@global.sql_mode='';，解忧。

在Navicat中给MySQL导入数据时，遇上失败，细查报错原因，发现有这么一行提示：
[ERR] 1406 - Data too long for column 'property' at row 2

嗯...太长，怎么办？🤔
老样子，把关键句子拷贝出来放搜索引擎里检索一下...

出现相同问题的人还挺多，搜索结果都有60万条...
查看几个结果之后，发现解决办法大同小异，核心思路是一样的：

修改sql_mode，关闭STRICT模式

开始修改之前，先查看下目前启用的什么模式

SHOW VARIABLES LIKE 'sql_mode';

看到了STRICT_TRANS_TABLES（存储引擎启用严格模式，非法数据值被拒绝），按照之前找到的方法，这时候我只要关闭这个模式就OK了😬

SET sql_mode='ONLY_FULL_GROUP_BY,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION';

查看下当前什么模式
SHOW VARIABLES LIKE 'sql_mode';

看起来没问题😬
接着重新导入数据再看

😐没成功！？

我陷入了沉思....

换个地方试试？

我打开Hyper（一款Terminal工具）

mysql -u root -p

show variables like 'sql_mode';

wtf？😭
果然之前操作的没有成功，才导致导入数据失败！

马不停蹄

set sql_mode='ONLY_FULL_GROUP_BY,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION';

再次检查一下模式是否设置成功

ok！返回去重新导入数据，还是失败，模式修改不是全局的缘故？🤔
重新设置模式

set @@global.sql_mode='ONLY_FULL_GROUP_BY,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION';

终于成功了😭

愿所有人少走无谓的弯路。

Excel数据分析——以招聘数据为例

2020-05-10T14:04:45.000Z

以某招聘网站的数据分析师招聘信息为样本数据，选取一个角度进行分析。熟悉使用Excel进行数据分析的基本步骤和常见操作

前言

明确总体目的：
以某招聘网站的数据分析师岗位的招聘信息为数据基础，探索不同城市数据分析师需求特点以及薪资情况。

分析前准备

在做数据分析之前，需要对整体数据做一个初步认识，各列数据有什么意义，哪些列是分析必用，哪些是可以暂时有用，哪些是明确无用的。

城市：因为需要分析不同城市的情况，还会做出对比，因此 城市 是分析必用的
职位ID：在数据无重复情况下，职位ID应当是每个招聘岗位的唯一ID，是必须用到的
职位名称：此表中职位名称并没有一个统一，还有些非数据分析师岗位名称，后面处理数据时需要用到
薪水：必用的
工作年限要求：必用的
以上这些列是此次分析不用用到的列数据。
暂时用不到的列，诸如 公司ID 、公司大小 、职能所属 、教育要求 、公司所属领域 ，此次不做分析（如从其他角度分析，则依然有用）
明确用不到的列，如 公司全名 、公司简称 、公司所在商区 、职位福利

此外，清楚各列数据的数据类型，如字符串、数值等

明确分析问题

不同城市对数据分析师的需求量比较
数据分析师在不同城市的平均薪资对比
工作年限对薪资影响
不同工作年限的需求量比较

数据处理

数据清洗工作是进行数据分析前所必须完成的工作，数据的整洁直接影响数据分析结果的呈现。

1.理解数据，选择重点分析对象

在分析前准备中提到，原始数据中包含很多列数据，有些数据不是重点分析对象，可将其隐藏。

隐藏前

隐藏后

2.删除重复值

本数据中一个 职位ID 对应一个职位，检查 职位ID 列是否有重复，如果有则将重复值删除
具体操作：

条件格式>突出显示单元格规则>重复值
数据>删除重复值>选择列，选择 职位ID 列

3.处理缺失值

检查每一列的值是否一致，查看是否存在缺失值
选中所在列：开始>查找与选择>定位条件>空值>输入值

缺省值处理的常用方法：

通过人工手动补全

删除缺省值

用平均值替代缺省值

用统计模型计算出的值去代替缺省值

4.一致化处理

把所有的数据处理成容易使用公式或数据透视表的形式

数据表中 公司所属领域 这一列，有些公司从属于一个行业，有些公司则从属于两个行业，此时需要将这两个行业分割开来。使用 分列。

数据表中 薪水 这一列是以区间方式表示的，把最低薪水和最高薪水分隔开来以便使用图表查看薪水情况
此处涉及到对表格字符串截取的操作，通常使用函数LEFT/RIGHT/MID截取，用函数FIND和LEN进行定位。
观察发现 薪水列中数据有出现大小写K/k混用情况，先将他们统一替换成小写k

插入两列，分别提取最低薪水和最高薪水。

因 薪水 中一些单元格内是“xx以上”或“xx以下”，不能直接套用复合函数，我们可以先对单元格进行判断，不是以 “k”结束的单元格，最高薪水暂定与最低薪水相同。

经过单元格计算得到的最高薪水和最低薪水是文本型数据，无法正常按照数值进行排序，需要将结果复制出来，新建列表。
流程如下：
开始>选择性粘贴>勾选值和添加，然后补全列表名

可实现正常排序

职位名称 列内职位名称种类非常多，有些甚至不是数据分析师，需要先初步判断下那些需要留存。

可以提取含有“数据分析”、“分析师”、“数据科学”、“数据运营”的行。
新建一列表名“数据分析师”，使用函数IF/COUNT/FIND，如果单元格中含有“分析”、“数据科学”、“数据运营”，则返回“是”

筛选 数据分析师 列中为“是”的所有行，，完成对数据分析师列数据的统一。
复制整个表数据作为最终数据

构建模型

数据经过清洗之后，需要构建一套模型，以实现分析这些数据的目的。
如前面提到，想要知道不同城市的数据分析师招聘岗位对不同工作年限的人是怎样的需求情况，利用数据透视功能，得到以下数据透视表：

想要获取不同工作年限的岗位提供的薪资水平情况，可得到以下数据透视表：

想要获取不同城市的平均薪资水平，可得以下数据透视表：

利用“描述性统计”功能可以堆平均薪资进行分析，
数据>数据分析>描述统计

描述性统计结果：

数据可视化

根据前面生成的数据透视表，可作出以下可视化图标：

主要城市数据分析师需求情况
各城市数据分析师平均薪水情况
不同工作年限的平均薪水对比
深圳市不同工作年限数据分析师的平均薪水和需求对比

结论

从需求情况可以看出，数据分析师的工作机会主要集中在一线城市，北京居首；新一线城市中也有一些机会，接近一线城市，如杭州7.17%与广州8.42%差距已不大
从各城市平均薪水表可以看到，该岗位在深圳的薪水最高，其次是北京、上海
随着经验累积，薪酬不断提升，3-5年工作经验的薪水已接近1-3年经验的两倍，10年以上经验的虽超过3倍，但该阶段需求很小，数据量小，难以反映真实情况
从深圳的数据分析师需求来看，因为职业较新，主要工作机会给予集中在1-5年有经验的人身上

关于

2019-05-01T11:09:48.000Z

欢迎来到我的小站呀，很高兴遇见你！🤝

🏠 关于本站

本站主要作为我的个人成长记录，从开始写那一刻开始记录。

👨‍💻 博主是谁

华中地区某普通211毕业的农学背景男。
大学期间辅修过建筑学，未完成学业。
研究生在某国内头部大学师从某行业国内领军人物，但因种种原因未完成学业。

⛹ 兴趣爱好

没有固定兴趣爱好。可以打游戏，可以撸代码。

📬 联系我呀

暂时不了。