今天我们来聊一下,流量中的灰色地带–虚假流量,据官方统计数据,2016年虚假流量就给全球广告主造成了76亿美元的直接经济损失,除了直接经济损失外,更加多样的流量造假方式,也带来了更多的“副作用”。
如无效的用户定位,广告出现在了不该出现的媒体上面,吸引了不该吸引的用户,白白浪费流量,更有甚者,如果把流量导流到了美女游戏页面,那么对品牌形象也会产生负面影响。
虚假流量是如何产生的
整个广告生态会涉及三方角色:广告主、媒体(卖广告的)、用户(看广告的)。媒体是不会承诺效果的,但是如果你反馈曝光量和点击量不够,媒体是可以给你再补量的。给你补的量多了,势必造成其它家量少,间接造成竞争加剧,流量价格也越来越高,但是只有曝光点击没有转化也是没有用的,于是更多的广告主更倾向于用户转化作为考核指标,而忽略了其它考核指标如CPC、CPM,只会让竞争更加加剧,造成恶性循环,从而导致了虚假流量的产生。
我们知道用户一般会在三次或三次以上访问后最终才能决定转化,他的整个生命周期决定了最后的转化,某些渠道虽然不擅长转化,但是它对其它渠道有助攻作用,所以不能一刀切。
另外,如果把和渠道结算的指标定为CPS、CPA就万事大吉了吗?有利益驱使的地方就有魔鬼。所以我们需要一整套完整的策略为渠道保驾护航。
甄别虚假流量
在研究虚假流量之前,还有一种流量需要引起我们的注意,那就是异常流量,异常流量通常混杂在虚假流量中间,扰乱我们的判断。所以首先我们要区分什么是虚假流量什么是异常流量?
如果出现了以下情况,多半可以认为是异常流量,当然这需要沟通多方然后去判断:
投放的媒体出现了问题,投放的页面宕机了
打的链接参数缺失或者丢失导致代码失效
埋点采集异常
数据通路被无故屏蔽
指标配置有问题
如果出现了以下情况,多半可以认为是虚假流量:
刷量!
刷量!!
刷量!!!
对于如何避免异常流量,不是今天文章的重点,就不多说了,这需要公司内部规范化项目流程,各个环节把控好,才能有效规避。下面,我们详细说下如何排查出虚假流量的蛛丝马迹。
流量全流程数据监控
我们需要将流量数据、行为数据和转化数据通过一定的数据采集手段,来获取完整、全面和准确的数据,目的是将全流程数据打通,只有获取了完整全面的数据我们才能找到虚假流量的踪迹。下图是流量转化的完整过程:
这个过程我们面临了两个难题:
展示和点击数据都在第三方广告投放平台,我们不能获得用户的详细信息
前后端数据存在割裂,只能统计到前端的点击转化,不知道后续业务转化如何
所以好多渠道作弊方,会在这两个方面做文章,钻渠道的空子,通过程序或者雇佣人肉等人为操作产生流量,人为操作可能是点击你的广告、访问推广落地页,或者完成某个简单的任务,比如点击Call to Action按钮,这种流量通常不会带来实际的转化,上面也说了因为转化的业务数据不能获得,抓不到证据也就不好衡量,所以就只能呵呵了。
作弊流量是不能避免的,我们只能靠增加技术壁垒,增加作弊的成本,作弊的成本高了,一定程度会减少作弊的现象。
数据预处理
我们可以在流量正式到达落地页之前,在展示点击阶段和到达产品落地页之间构建一层屏障,即通过数据预处理手段,通过一定的反作弊规则先把某些行为可疑或者不需要的流量过滤掉:
过滤某些已知IP段,如内网IP、测试IP
设备号异常:如频繁重置idfa
IP异常:定位的IP来自莫名其妙的地方
行为异常:如频繁刷新页面
数据包不够完整:只有启动信息,没有页面、事件等其他用户行为信息
这样我们就能保证到达落地页的流量相对干净,但仍有落网之鱼,需要我们通过进一步的数据分析来找到虚假流量。
案例剖析虚假流量
我们先来看一组数据:
日均访问次数:10w+
跳出率:45%
平均每次访问页数:3.2
平均每次访问停留时长:1分50秒
订单转化率:0.12%
#p#分页标题#e#这是我们某个电商类客户反馈出的问题,他们新上线了某个电商网站,从访问量、跳出率等这些指标来看表现都不错,偏偏订单转化率低,不知道怎么回事。
遇到这种情况,只能说别急,我们先从数据上细分看看。细分对虚假流量是致命的,因为通过细分我们一定能识别出虚假流量的模式和规律。
网站整体的访问量变化趋势
从上图可以看出,9月3号PV较平时较低;访问量和唯一身份访问用户数几乎相等,即人均访问次数接近与1,每个用户只访问了一次,月回访率很低。
新访占比和跳出率对比分析
从上图我们可以得出这些信息:
新用户占比接近于80%,说明新用户居多
跳出率在45%左右,跳出率很低,说明流量质量还可以
但是如果我们深入想一下,会发现有如下问题:
新用户占比和跳出率指标成反比关系,正常情况下,新用户占比和跳出率指标成正比关系,新用户占比高的话,跳出率也高
跳出率低,为什么转化率也那么低呢?
不同城市不同转化指标对比
我们找了流量排名Top8的城市的对比数据,这Top8的城市数据对流量贡献较大,且上海的销售额占总销售额的1/3左右,河南订单转化率较高。城市为“未知”的流量贡献也较大,跳出率低,但是订单转化率远小于0.01%。显示为未知,说明抓不到这些流量来自于哪个IP段,但是访问量足够大,所以需要引起注意,有作弊嫌疑。
未知城市不同时间段分类对比分析
选择了最近一个月的数据,看不同时段这些流量的分布情况(图略),发现凌晨1点到凌晨6点流量占总流量的25%,占比较高,更奇怪的是,晚间流量每个时段较平均,流量差不多,这是不符合常理的,需要进一步分析。
夜间流量分类对比分析
我们发现这些流量中72%的流量来自于广告系列,但是转化率较低,不知道具体哪个广告系列来源拉了后腿。
夜间流量广告系列来源占比分析
发现广告系列流量中大部分都来自于sm这个渠道,此时可以把分析范围缩小到sm这个渠道。
sm渠道指标整合分析
sm渠道的访问量很大,新用户占比90.31%,而跳出率为20.32%,转化率0.08%。基本可以断定是sm渠道出问题了。
sm渠道细分落地页和非活动页面数据表现
通过进一步细分,发现sm渠道大部分流量都流入了活动落地页(图略),跳出率低于23%,且每次访问的平均浏览深度接近于1,有趣的是,另一部分非活动落地页的,页面浏览深度在几百个页面,非正常人类行为,它的目的只是为了平均整体流量。
sm渠道活动落地页点击图分析
同时我们还可以结合不同落地页的点击图进行分析,你会发现更多有趣的现象。
至此,大功告成。
案例总结
从上面的案例我们看到通过层层细分,层层递进的方法我们找到了虚假流量,所以要想找出虚假流量,我们需要密切关注如下几个方面:
给渠道打好标记,目的方便分割流量
为每一个渠道打好UTM标记,那么渠道会贯穿于用户的整个访问过程中,方便按渠道分组查看每个渠道的表现,避免其它渠道的干扰。
流量产生的时间
找到异常流量发生的时间点,然后将时间细化到每小时的访问数据,如果流量过于集中在某个时段,或者在不恰当的时间点出现了流量激增的情况,这时候就要引起注意了。
流量的地理来源
通常情况下,访客会来自不同的地理位置,如果流量过于集中在某个地区,或者采集不到地区的地方出现了大量的流量等等都是很可疑的。
流量的用户终端
#p#分页标题#e#不同的渠道覆盖不同的用户群,所以各自的用户终端会有一定的区别。比如对于小米应用商店这个渠道来说,它的用户很可能排在前10的手机都是小米手机,而对移动MM来说,他们的用户都来自于移动运营商。排除这些特殊渠道的应用商店,大部分渠道的用户终端跟整个互联网终端分布是类似的。我们可以通过看行业报告或者查询数据指数产品来了解这些数据,把这些数据作为行业基准值,进行对比。另外我们还可以重点关注设备终端类型、操作系统、联网方式、运营商、地理位置等设备属性。
流量的跳出率和新访用户占比
跳出率和新访用户占比成正比关系,另外如果流量在某个时段跳出率突然增高,可以结合上述维度进行细分查看,哪个细分维度的跳出率增高。
流量的转化
很多作弊流量可以模仿人类行为,绕过跳出率、平均访问深度和停留时长这些宏观指标,但是要模仿一个业务转化就比较难了,如果宏观指标表现很好,业务转化很少的话,就需要提高警觉。
流量的留存
我们一般经常看的留存指标有次日留存、7日留存、30日留存,所以一些作弊渠道会专门针对这三个指标做手脚,所以除了看这三个指标外,建议将指标拓宽,关注每天的留存变化。
新流量过来的用户路径
新用户来到推广落地页后,一般会从落地页开始进行分流,他们会点击不同的链接,访问不同的页面,而作弊流量很难完成2-3次点击,即便完成了,点击的链接或内容也基本固定。
流量的功能访问分布分析
适当拉大时间维度,看某个渠道某个基本功能如浏览页面的访问频次分布,真实的访客是有再次回访行为的,而虚假流量一般是本次任务完成后是不会管后续收尾动作的,回访频率很低。
流量的单页面人均访问次数
如果某个落地页面的人均访问次数很高比如4次以上的话,就很可疑了,因为在一次访问中用户一般是不会多次浏览同一个落地页的。同时结合该页面在网站整体的人均访问次数进行对比,结果会更加准确。
流量的落地页点击热图分析
这需要借助一些热图工具,从热图工具中,作弊流量的蛛丝马迹更易发现。