A/B 测试统计:转化率的真实值和估计值

2025年1月7日 | 阅读 6 分钟

什么是 A/B 测试?

A/B 测试,或称拆分测试,是统计学中检验想法的关键方法。它被广泛应用于在线营销、网站设计和新产品开发。其主要目的是通过观察特定数据来判断两种方案中哪一种效果更好。

对于寻求提高销量的网站,A/B 测试帮助公司找出哪个版本的网页、电子邮件或其他营销材料更能将访问者转化为购买者或潜在客户。

A/B 测试统计学基础

  • 提出要测试的想法
    每个 A/B 测试都始于一个需要验证的想法。它看起来像这样:
    • 零假设 (H0):版本 A 和版本 B 之间没有显著差异。
    • 备择假设 (H1):版本 A 和版本 B 之间存在显著差异。
  • 随机分配
    为了确保测试的有效性,参与者(访问网站或使用网站的人)会被随机分配到 A 组或 B 组。这种随机分配有助于消除偏差,并确保我们观察到的任何差异都是由于我们正在测试的更改造成的,而不是其他因素。
  • 确定需要测试的人数
    样本量在 A/B 测试中起着关键作用。参与者越多的测试,越有可能发现版本之间的真实差异。所需人数取决于预期变化的幅度、您希望的确定程度以及结果的强度等因素。
  • 统计显著性
    A/B 测试依赖于统计显著性。这个概念帮助我们判断版本之间看到的差异是随机的还是真实的。人们通常使用 p 值来衡量这一点,截止值通常设为 0.05(但这可以根据测试内容而变化)。
  • 置信区间
    置信区间为我们提供了版本之间真实差异的可能值范围。这比单一数字估计提供了更多信息。例如,95% 的置信区间意味着我们可以非常确定(确切地说,有 95% 的把握)真实差异在此范围内。

真实转化率与估计转化率

真实转化率

真实转化率是用户看到特定版本时实际的转化率。在现实生活中,我们永远无法确定这个数字;它只是一个理论值。

估计转化率

我们估计的转化率来自我们的样本数据。这是我们根据 A/B 测试中观察到的结果,对真实转化率的最佳估计。

真实转化率和估计转化率如何关联?

我们估计的转化率是真实转化率的一个粗略猜测。当我们使用更多数据时,我们的猜测会变得更好,更接近真实转化率。但总会存在一些不确定性,这就是为什么我们使用置信区间并检查结果是否重要。

结果示例

让我们看几个例子来说明这些想法:

示例 1:基本 A/B 测试

情况是这样的:一家在线商店正在测试两个不同的产品页面。他们有一个旧版本,版本 A,和一个新版本,版本 B,其中“添加到购物车”按钮更大,更显眼。

他们发现了什么:

  • 版本 A:1000 人访问,100 人购买了商品
  • 版本 B:1000 人访问,120 人购买了商品

因此,他们计算了每个版本的表现:

  • 版本 A:100 / 1000 = 10% 的人购买了商品
  • 版本 B:120 / 1000 = 12% 的人购买了商品

他们进行了一些数学计算来查看这种差异是否重要:

使用卡方检验或比例 z 检验,他们得到:

  • p 值:0.0386
  • 差异的 95% 置信区间为 0.2% 到 3.8%

这意味着什么:

p 值低于 0.05,这表明差异很重要。我们可以 95% 确定版本 B 的实际转化率比版本 A 高 0.2% 到 3.8%。

示例 2:样本量不同的 A/B 测试

情况:一家 SaaS 公司想测试两种注册方式。由于一些技术问题,他们没有对每个版本测试相同数量的人。

测试结果:

  • 版本 A:5000 人访问,750 人注册
  • 版本 B:4500 人访问,720 人转化

估计转化率:

  • 版本 A:750 / 5000 = 15%
  • 版本 B:720 / 4500 = 16%

统计分析

正确的统计检验可能显示:

  • p 值:0.1823
  • 差异的 95% 置信区间:-0.5% 到 2.5%

这意味着什么:

p 值高于 0.05,这告诉我们不能确定这两个版本之间是否存在真实差异。置信区间包含 0,这支持了这一观点。

A/B 测试对转化率优化的优势

  • 利用事实做出选择
    A/B 测试为您提供真实的信息,帮助您做出决定。这意味着您不必猜测或仅仅凭喜好行事。
  • 降低风险
    在实际实施更改之前进行测试,可以避免可能损害销量的重大失误。
  • 持续改进
    A/B 测试促使人们不断改进。微小的改变日积月累,可以带来巨大的成功。
  • 了解用户需求
    A/B 测试帮助企业了解用户的喜好和行为。这有助于制作更好的广告和产品。
  • 可靠的结果
    A/B 测试提供清晰可衡量的结果。这使得支持在设计调整或新事物上的开支变得更容易。
  • 用户细分的洞察
    A/B 测试可以显示不同用户群体对变化的反应。这使您可以针对每个群体微调策略。

常见错误和最佳实践

  • 过早结束测试
    提前确定需要测试的人数至关重要。不要在看到显著差异后立即停止测试。过早停止可能导致错误的结论。
  • 测试过多内容
    同时进行多项测试或在相同信息上连续进行测试,可能会增加获得假阳性的可能性。使用邦弗朗尼校正等方法可以帮助解决这个问题。
  • 不考虑外部因素
    季节性变化、广告活动或其他外部事件可能会影响测试结果。在分析结果时考虑这些因素至关重要。
  • 忽视实际影响
    仅仅因为某事很重要并不意味着它在现实生活中也重要。一个统计上显著的结果,如果实际影响太小,可能不值得实施。
  • 不关注长期影响
    有些改变可能带来短期收益,但长期来看却有害。在可能的情况下,明智的做法是检查长期结果。

A/B 测试数学中的酷炫内容

  • 贝叶斯 A/B 测试
    与传统 A/B 测试不同,贝叶斯方法利用我们已有的知识,并随着获得更多信息进行更新。这让我们在何时停止测试方面更灵活,并且更容易理解结果。
  • 多臂老虎机算法
    这些算法在测试运行时,会将更多访问者发送到效果更好的版本。与常规 A/B 测试相比,这有助于我们更快地学习并减少浪费的时间。
  • 序贯分析
    通过序贯分析方法不断检查测试结果,可以在明确的赢家出现时更早地停止测试。
  • 多变量测试
    当您需要同时测试很多东西时,多变量测试比进行大量 A/B 测试更有效。

结论

A/B 测试帮助企业改进网站并根据数据做出明智选择。通过观察不同版本的表现,公司可以逐步改进其在线内容和营销计划。

了解 A/B 测试中真实转化率和我们认为的转化率之间的区别至关重要。我们永远无法确定真实的转化率是多少,但使用正确的数学技巧可以让我们根据最佳猜测做出好的选择。

要正确进行 A/B 测试,您需要了解统计学,周密计划测试,使用足够的样本量,并认真思考您的发现。如果做得对,它可以让您的网站效果大大提升,并帮助您的业务增长。随着技术和统计学的进步,贝叶斯测试和多臂老虎机算法等新方法为我们提供了更多改进网站的方式。这些高级方法可能帮助我们更快、更智能地测试事物。

归根结底,A/B 测试不仅仅是找到效果最好的东西。它是关于了解人们的行为和喜好。这些信息可以塑造您的宏伟计划,并帮助您制作人们想要使用和购买的产品。当公司使用 A/B 测试并理解其背后的数学原理时,它们可以不断改进。这有助于它们根据事实做出选择,从而改善用户体验并帮助业务增长。