1. 概述编辑
1.1 概念
通过研究用户消费数据,将不同商品之间进行关联,并挖掘二者之间联系的分析方法,即「购物篮分析」。
1.2 解决的问题
找出顾客购买行为的模式:
比如用户买了A商品,是否会对B商品产生什么影响?
不同的用户是否具有不同的购买模式?
哪些产品应该放在一起进行捆绑销售?
1.3 预期效果
详情仪表板链接请参见:购物篮分析
1.4 实现思路
关联分析由以下指标进行衡量。
定义 | 概率描述 | 举例说明 | |
---|---|---|---|
支持度 | 支持度是指A商品和B商品同时被购买的概率,或者说某个商品组合的购买次数占总商品购买次数的比例。 支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。 | 物品集A对物品集B的支持度support(A==>B)=P(A n B) | 今天共有10笔订单,其中同时购买牛奶和面包的次数是6次,那么牛奶+面包组合的支持度就是6/10=60% |
置信度 | 置信度是指购买A之后又购买B的条件概率,简单说就是因为购买了A所以购买了B的概率 | 物品集A对物品集B的置信度confidence(A==>B)=P(A|B) | 今天共有10笔订单,其中购买A的次数是8,同时购买A和B的次数是6,则其置信度是6/8=75% |
提升度 | 先购买A对购买B的提升作用,用来判断商品组合方式是否具有实际价值,是看组合商品被购买的次数是否高于单独商品的购买次数,大于1说明该组合方式有效,小于1则说明无效。 | L= P(A n B) /[P(A)*P(B)] | 今天共有10笔订单,购买A的次数是8,购买B的次数是6,购买A+B的次数是6,那么提升度是0.6/(0.8*0.6)>1,因此A+B的组合方式是有效的。 |
支持度计算公式:同时购买A和B订单数/总购买订单数
置信度计算公式:同时购买A和B订单数/购买A的订单数
提升度计算公式:支持度/((购买A次数/总购买订单数)*(购买B次数/总购买订单数))
2. 示例编辑
示例数据:「功能数据>第一张仪表板>集团商品销售总表」
2.1 计算总购买商品数
进入数据准备>业务包下,点击「添加表」,创建自助数据集,勾选「集团商品销售总表」下的所有字段,如下图所示:
选择分组汇总,将「单据编码」分别拖入「分组」和「汇总」栏,并设置汇总栏汇总方式为「去重计数」,如下图所示:
创建「新增列」,命名为「总购买数」,对单据编码个数求和,点击「确定」,如下图所示:
命名并保存自助数据集即可。
2.2 计算购买单个商品(A)订单数
创建新的自助数据集,勾选「集团商品销售总表」下的所有字段,如下图所示:
选择分组汇总,将「商品名称」拖入「分组」将「单据编码」拖入「汇总」栏,并设置汇总栏汇总方式为「去重计数」,如下图所示:
命名并保存自助数据集即可。
2.3 数据合并
此时需要复制一列相同的商品类别,将两列合并在一起,就可以分出比如A+A、A+B、B+A等的商品组合。
创建自助数据集,勾选「集团商品销售总表」下的所有字段,如下图所示:
选择「左右合并」,合并数据集为「集团商品销售总表」下的「单据编码」和「商品名称」,点击「确定」,设置合并方式为「并集合并」,合并依据为「单据编码」,如下图所示:
此时就已经有类似 A+A、A+B、B+A 等的商品组合。
2.4 计算组合商品的购买次数
很显然不需要类似 A+A 的组合,因此将商品名称相同的数据过滤掉。
选择过滤,点击「添加公式」,输入函数商品名称!=集团商品销售总表-商品名称,点击「确定」,如下图所示:
我们计算购买一次即一个订单,由于数据有重复,因此需要去掉相同订单购买同一个商品的数据,新增分组汇总,选择「单据编码」、「商品名称」、「集团商品销售总表」到分组栏,如下图所示:
添加一个辅助列,也就是值为1的常数列,然后再新增一列,将相同类别的商品求和,也就是计算相同类别商品中 1 的个数,作为每个商品组合的次数,如下图所示:
2.5 计算购买商品组合中另一商品数(B)
选择「新增列」,输入名称,计算同一「集团商品销售总表-商品名称」中计数个数,点击「确定」,如下图所示:
2.6 合并总购买数和单个商品购买数
需要将 2.1 2.2 中创建的自助数据集合并在该表中,方便之后计算。
选择左右合并,将「总购买数」下的「总购买数」和「单据编码」字段添加至合并字段,点击「确定」,选择合并方式「左合并」,合并依据「单据编码」,如下图所示:
同理,将2.2 节创建的自助数据集合并,合并依据为「商品名称」,如下图所示:
2.7 计算支持度、置信度、提升度
选择「新增列」,命名并输入计算公式:组合商品购买次数/总购买数,点击「确定」,如下图所示:
选择「新增列」,命名并输入计算公式:组合商品购买次数/购买单个商品(A)数,点击「确定」,如下图所示:
选择「新增列」,命名并输入计算公式:支持度/((购买A次数/总购买数)*(购买B次数/总购买数)),点击「确定」,如下图所示:
命名保存自助数据集即可。
2.8 创建仪表板
在仪表板选择新建自助数据集,点击「确定」,选择「自定义图表」,将「集团商品销售总表-商品名称」和「商品名称」拖入横轴和纵轴,选择「矩形块」,将支持度字段拖入颜色框和标签框,由于合并导致自助数据集数据有重复,可将标签中的支持度数据改为平均值计算方式,如下图所示:
此时「集团商品销售总表-商品名称」字段为「关联商品」,「商品名称」为「分析商品」。
除此之外也可以做本文 1.2 节内容,将「集团商品销售总表-商品名称」和「商品名称」拖入维度栏,将支持度字、置信度、提升度拖入指标栏,如下图所示:
注:由于合并导致自助数据集数据有重复,可将指标中的支持度、置信度、提升度数据改为平均值计算方式。
2.9 效果展示
详情参见本文 1.3 节。