A/B测试探索0:统计学原理梳理

A/B测试概念简单概括就是,将用户分为两组,一组使用旧产品(或旧功能),一组使用新的。然后对比两个用户组,通过数据来分析,新的功能究竟是好是坏。没错,就跟小学的时候做的那些有控制组、实验组的自然科学实验一样一样的。

A/B测试背后的原理是统计学经常会用到的一种方法论--假设检验。

做假设检验之前我们来看做一定的假设。

1、A版本和B版本是独立的
2、A版本、B版本的数据在样本量足够大的时候服从正态分布。

由于我们做A/B的样本量都很大,所以符合大样本场景,所以我们一般采用的两样本均值的Z检验

Z检验Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。 它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。

于是我们就可以构建出一个统计量

$$Z = \frac{\bar{X_1} -\bar{X_0}}{\sqrt{\frac{S_0^2}{N_0} + \frac{S_1^2}{N_1}}}$$

以上公式中的每个元素都是我们需要统计得到的数据,其中方差的计算相对比较复杂。、

一种可简化的情况:转化率

转化率介于[0,1]的情况,可以理解为用户进入实验页面,所进行的操作只有两种情况,做与不做,所以我们可以用一个二项分布来描述。假定均值为 $$p$$ ,则方差就为 $$p(1-p)$$.

于是我们就可以将Z统计量简化为

$$Z = \frac{{p_1 -p_0}}{\sqrt{\frac{p_0(1-p_0)}{N_0} + \frac{p_1(1-p_1)}{N_1}}}$$

这样我们就不用专门去求方差了,问题就大大简化。

comments powered by Disqus