你了解的A/B测试可能只是冰山一角_GEO

你了解的A/B测试可能只是冰山一角

宋星

2021/07/13

4314

推荐 U渠道 - 免费对接【高返点】广告渠道，高端人脉、靠谱实力强的服务商去对接>>

推广负责人如何做项目规划？授课老师：钮问

时长: 60分钟

讲师: 钮问

点击学习>

全文目录如下：

1. A/B测试不仅是一个方法，更是一个企业的核心优化策略
2. A/B测试，或许跟你想的不一样
2.1 测试推送
2.2 服务端编程实验
2.3 广告投放RTA实验
2.4 灰度发布
3. A/B测试，科学性很重要！

先从一个故事开始。

一个真实的，我们的邻邦的故事。

我们都知道隔壁邻居那边闹变种病毒的疫情很厉害。

但是相当长一段时间，无论是疫苗还是医疗物资都是极端短缺的。

所以，那边抵抗病毒，颇有些听天由命的味道。

但是邻居们不信命，或者说，他们相信比命更牛的东西，没错，就是信牛。

牛的尿，可能对植物的生长有益处，但是用于防治新冠，如同其口味一样，真是一言难尽。

邻居们却相信来自牛的圣水，具有神奇的效果。

于是有一些人喝了牛尿，相信自己绝对不会染上新冠病毒。之后，他们确实也没有感觉自己染上新冠病毒。

我们的友邦大众于是纷纷效仿，相信自己终于有了防治新冠的可靠武器。

这样的事情，讲给任何一个智力正常的中国人，都只会哈哈一笑。但是，我们该怎么帮助他们说明牛尿毫无效果呢？

我们需要用科学的方法来证明。这个科学方法，并不是去化验牛尿在人体内杀灭新冠病毒的效果，而是认认真真做喝牛尿和不喝牛尿的抗病毒效果的比较。

我们需要让两组数量相等且足够的人（假设每组都有2000人），生活在同一个暴露环境下，一组人天天喝牛尿，此外啥也不做，而另外一组人戴口罩、打中国疫苗。之后的几个月内，记录这些人罹患新冠肺炎的数量。

如果喝牛尿那一组的得病人数远远高于另外一组，并且不低于甚至远高于全国人的新冠肺炎感染率，那就说明喝牛尿什么卵用也没有。

这就是类似于我们所说的A/B测试：为了搞清楚什么有效什么无效，把测试对象分成两个或者若干个组，然后在同时暴露在其他变量都一样的环境下，看看每组测试对象的变化是什么。

医学上为了测试尽可能准确不受任何因素甚至不受病人或医生的心理暗示影响，往往会让各组患者吃看起来完全没有区别的药品（只是部分测试组的药品只含有安慰剂），连医生都不知道哪组患者吃的是药品，哪组吃的是安慰剂。这也就是所谓的“双盲”（患者和医生都不知道）的测试。

A/B测试这个方法本来来源于医学界，可是引入到互联网世界中之后，却大放异彩了起来！

很多时候，你都会觉得，自己的老板或者同事，为什么对一个错误的方法怀有执念，就像喝牛尿的隔壁邻居一样，但还怎么都说服不了。

着急没用，A/B测试有用！

A/B测试不仅是一个方法，更是一个企业的核心优化策略

比如，争论哪个素材更有效？A/B测试一下，让这两个素材同时跑在自己的广告上，流量随机平分给它们，随后我们可以看到哪个CTR好，而且是一直好，那么大家的争吵可以闭嘴了。

但A/B测试显然不只是“让争吵闭嘴”这点作用。A/B测试的核心价值在于，它是一个将定性决策转化为定量决策的重要方法。尽管将定性决策转化为定量分析的方法有很多，但没有任何一个方法有A/B测试这么直观、科学、可信，且易于操作。

国外有很多例子，说A/B测试怎么样给企业带来神奇的变化。

比如Linkedin用A/B测试大幅度提升了Premium产品的转化，并且将A/B测试作为其增长优化的一个持续的、系统的工程。

又比如，谷歌一直将A/B测试作为其产品优化的基本方法，不仅仅包括其UI的修改，也包括其产品算法的修改，甚至是新产品问世，都要先进行大量的A/B测试。谷歌A/B测试有时候会进一步上升复杂度为多变量测试（考虑到更多变量都需要测试的情况）。

还比如，微软的搜索引擎Bing，一直在任何UI微调上都坚持A/B测试。在一篇关于微软Bing的优化文章上说：Bing对于什么样的文字颜色（加重显示颜色）做了大量的测试，最终深蓝和绿色的配合，要比单纯的深蓝或者绿色的文字显示更能引起用户的点击，这一组合要比其他颜色每年带来更高的点击收益，多达一千万美元。

亚马逊在购物流程的优化上，全部应用A/B测试作为核心优化策略。小到一个按钮的变化，大到一个流程的改变。例如，在用户购物的过程中推销自己的信用卡，需要回答究竟应该将信用卡放在哪个购物环节进行推销合适的问题。A/B测试的结论是：放在购物环节的越后端越好。

总之，并非当大家对于什么样的用户交互会更好这样的问题悬而未决的时候，才会想起A/B测试，A/B测试本身就是一个极佳的、必备的增长策略或优化策略。

国内的大厂，用A/B测试也是家常便饭。国内最喜欢做A/B测试的是字节跳动。据说“今日头条”和“抖音”这两个名字就是参考了A/B测试的结果。张一鸣说，哪怕99.9%的把握觉得这是一个好名字，测一测又有什么神马不可呢？不仅如此，字节还专门给自己开发A/B测试工具，并且将A/B测试融入自己的企业文化。这家企业这么多年的快速发展，A/B测试功不可没。

A/B测试为什么应该是一个企业增长的核心优化策略？简单讲，三个方面。

第一：将定性决策可信、直观、科学的定量化。这个刚刚已经说了。

第二：比任何推演分析、任何归纳或者演绎都要更能洞察消费者的意图或需求。因为是真实的用户，真实的环境，并且严格控制其他变量的干扰。

第三：实现难度较低，风险可控，企业可以大范围、多频次地进行。

或者，一句话也可以说明白：如果一个企业能够保持做正确的事情，或是保持做出正确的选择，那么这个企业没有理由不增长，A/B测试就是保证我们能够做正确的事情的核心武器，也是很多企业能够持续增长背后的秘密之一！

A/B测试，或许跟你想的不一样

A/B测试如此重要，但总听到一些朋友说，A/B测试没啥用。

对一个事情见仁见智很正常，不过我还是要说，A/B测试或许跟你想象的不一样。

举个例子，如果一个A/B测试的结果，表现出的是A和B的结果区别不大，无法在统计学意义上分辨出谁更好，你会怎么看待这一情况。

大部分人都会认为，这个实验没有分出胜负，所以A/B测试在这个实验上没有给出什么有用的信息。

但是，A/B测试不仅仅只是为了给你一个“你期望的答案”（事实上很多时候答案并不会你的期望，否则A/B测试也就没有意义了），而是，给了你一个观察在不同变量的情况下，人们的行为会发生何种相应改变的机会，也给你了你一个分析这些改变背后蕴含着何种“道理”的机会。

比如，你在同一个app的两个不同界面上，或者两个不同页面版本上的用户行为，肯定是不同的。这些不同又可以通过用户行为分析工具反映出来。也就是说，A/B测试给你的不只是结果，光看结果实在是太大材小用了，A/B测试给了你非常好的洞察消费者意图和行为逻辑的机会。基于这些洞察，你可以做出更好的C版本，然后基于A/BC三个版本，继续进行测试。

不过，A/B测试的能力还远远不止这些。或者说，只是分流人群做个比较，以及洞察消费者，仍然不是A/B测试的全部。今天的A/B测试有很多进化，它也远远不只是一个分析工具，而是具有更多主动性的功能——所谓主动性，是指A/B测试的很多功能能够直接作用于营销，在甚至不需要人的干预下提升营销和运营的绩效。

我们看看它都有哪些我们可能并不知晓的能耐。

测试推送

我们都知道推送消息（push notification）这个事情跟创意的文案关系非常大。

A/B测试当然可以测试哪个文案效果（点开率）更好，就跟前面说的测试不同创意的CTR一样，这似乎毫无再讲的必要。

不尽然。

今天的A/B测试其实早已经不是只测试一下哪个的点击率好那么“幼稚”，A/B测试的工具，能够作用于推送消息的后台，在初步测试的基础上，自动调整那个有更好点击率的消息，让它有更多的被人看到的可能。如果这个消息被更多人看到后，它的点击率仍然比另外的版本高，那么A/B测试工具能够进一步让它有更多的“曝光”。

当然，实际的调优不是这么机械的。因为毕竟不同的消息特点不同，有的可能慢热，一开始如果效果不好，那么它岂不是永远没有“出头之日”了。

实际在A/B测试中不断调优是在算法的控制下完成的。例如常用的贝叶斯决策树，能够在每个方案中都有多个变量的情况下找到最优解。

这就是在A/B测试工具控制下的“赛马”机制。

用在推送上的A/B测试，本质上是“一边推送、一边测试、一边优化”，不断自动化地提升推送的效率和最终打开的效果。A/B测试的实验做完了，推送也完成了，并且几乎可以认为是以最佳方式将推送完成的。

服务端编程实验

推送的进化只是小儿科，从服务端实现A/B测试，则是具有重大意义的根本性提升。

很多年前，在我刚刚接触A/B测试的时候，A/B测试还只是在客户端实现的。简单讲，就是人群的分流发生在客户端，比如通过浏览器上的URL跳转，或是给不同的人发不同的APP版（或是在不同的时间发不同的版进行测试）来实现。

客户端A/B测试的缺点是，任何一个测试中的变化都要重新上线新的版本，工作量大、麻烦，而且无法实现基于实时测试结果的动态化的调优。

服务端编程实验，则完全改变这一状况。所有的用户拿到的都是同一个版本下的页面或APP，不过，不同的随机的用户，看到的设计或内容却不同，并且所有的不同都可以通过程序（脚本）进行控制。这种不同是在服务端直接针对每个用户提供的，是通过服务端编程实现的。

对于APP上的A/B测试，这种方式极为有用，这种方式不仅不需要用户额外下载新的版本的APP，更可以随时进行动态调整，从而在APP上也能实现类似于上面推送测试时的智能化的动态调优。

因此，服务端编程也大幅度降低了A/B测试的工作量，并让A/B测试的进行变得非常便捷，且无需打扰用户。更重要的是，基于服务端的编程实验，能够进行更为复杂的测试（实验）设计，同样的设计在客户端上进行的话，部署起来就会非常复杂而不具可行性。

广告投放RTA实验

A/B测试另一个好玩的是广告投放RTA的实验。

我们都知道RTA广告是基于广告主自己一方数据的广告投放方式。

投放的效果，实际上取决广告主自己人群的圈选。

在这个场景下接入A/B测试，则是将动态调优的方法，引入到RTA中。

在广告主圈选出适合投放的人群之后，A/B测试会对每个人投放之后的结果进行回收、比较，自动分析哪些人群和哪些创意具有更好的匹配关系，甚至是每个个体和创意的匹配关系，从而实时指导RTA的投放以更优化的方式进行。

事实上，这种基于A/B测试方法的智能化的流量调优不仅仅在推送、RTA广告等领域十分好用，在所有本质上需要进行推荐的场景下，都完全适用。

我很早以前就说过，互联网这个传统事物，进化到今天的数字世界的一个核心特征，就是无处不在的推荐——因人而异、量体裁衣的推荐。而推荐的质量高低，很大程度上决定了用户体验的好坏，以及商业转化达成效率的高低。

所有的本质上是推荐的场景，都适用于A/B测试的智能流量调优。

灰度发布

A/B测试还可以用来做灰度发布。

因为A/B测试是可以非常好的控制被测试的人群的数量。如果有一个新版，要发布，我可以少部分人慢慢过渡，如果这些人感觉不错，我再逐步放大到更大的人群。

A/B测试，科学性很重要！

如果你看了上面的内容，对A/B测试感兴趣，那么下面的内容也同样值得阅读。

因为，用好A/B测试，了解上面的那些应用场景还不足够，毕竟再好的工具，也要科学使用，否则就无法发挥效力，甚至是产生反作用。

让A/B测试能够很有科学性地为我们所用，有如下要求。

第一，如果你要做出真正有结论的A/B测试，对样本量是有要求的。显然，样本量越多越好。这里有一个告诉你如何计算A/B测试最小样本量的工具：https://www.surveysystem.com/sscalc.htm。

第二，基于A/B测试的优化，不要进行大幅度的修改，而应该是小步迭代，不断测试。而不是一次测试两个或者多个差异巨大的版本。

第三，很多的测试，并不会给你明确的谁更好的答案。因此，如同我前面所说的，胜负很多时候并不是A/B测试最重要的。分析用户在不同环境下行为的不同，以及背后的机理，从而能够更好地基于这些分析进行优化，才是更重要的。

第四，用对工具！上面列举的各种A/B测试的场景和能力，都必须基于好的工具才能实现。比如，服务端的编程实验，只有支持这种方式的工具才能实现。目前大量的工具，还停留在很久以前的客户端实现上。

而目前国内对A/B测试的应用集中在那些互联网“大厂”中，并形成了自己的A/B测试的专用产品或体系，比如字节的Libra、美团的Gemini、滴滴的阿波罗等。特别要提一下的是字节的Libra，这是目前第一个把自己的A/B产品“拿给外面”用的产品。Libra平台2016年诞生，在字节的各个产品、业务中经过了不断地使用、磨练和迭代，现在则通过字节旗下的to B品牌“火山引擎”对外开放，其能力包含上面我说的所有应用场景。

现在，是大家重拾A/B测试价值的时候了！