为了获得准确的数据,避免浪费你的时间,出现分析错误,今天就简单的说一下如何有效地处理分析中的不同类型的垃圾流量。
谷歌分析中的垃圾信息可以分为两种类型:ghosts and crawlers
1、Ghosts
大多数垃圾邮件都是这种类型的。他们之所以被称为Ghosts,是因为他们从来没有访问过你的网站。比如这种的,大家肯定是见过的:
best-deal-hdd.pro巜─━─═━═─━━════━━visit━us
best-deal-hdd.pro◄══━═══━━━━━═━══visit─us
看起来是不是很搞笑,因为这种垃圾邮件与你的网站完全没有任何互动,你可能会想,这怎么可能,因为GA的主要目的之一不就是跟踪我们网站的访问吗?哈哈,其实更厉害的是,他们倒是可以通过使用Measurement Protocol来实现这一点,该协议允许用户直接将数据发送到Google Analytics的服务器上。使用这种方法,它可以随机生成跟踪代码(UA-XXXXX-1),垃圾邮件制造者会在不知道对方是谁的情况下,再使用假数据进行"访问"你的网站。
2、Crawlers
这种垃圾流量,与垃圾邮件相反,它是确实可以访问你的网站的。这些垃圾流量机器人会顺着你的网页,无视像robots.txt那样的规则,爬取阅读你的网站。当它们离开你的网站时,他们会在你的报告上留下类似于正常访问的记录。
很多人肯定都试过从Htaccess文件来阻止Ghost Spam,或者使用引荐排除列表来阻止垃圾邮件,都没能起到很好的作用,这是因为Htaccess文件无法阻止没有访问的流量,也就是Ghosts,而引荐排除虽然能阻止一些,但是那些通过其他方法进来的就没辙了。通常拥有大流量的大网站最容易受到垃圾邮件的影响,尽管影响不是致命的,但无效的流量意味着不准确的数据报告。作为一个数据分析师,你应当能够解释细致的报告中发生了什么以及怎么去避免。
那么怎么办呢?可以换个思维,反过来操作,就是直接只允许你自己设置的hostname来访问,其他的都屏蔽掉,hostname怎么找呢,看下图:
对于中小站点来说,当你确定你已经得到了所有这些hostname之后,你就可以创建一个类似于这个的正则表达式:
example\com|anotherexample\.com|anotherexample\.com|anotherexample\.com
里面的域名大家自己去填下就好了,记住你不需要把所有的子域名都放在正则表达式中,因为一个主域将匹配所有这些,所以没必要。
最后就是创建一个自定义过滤器
进入“过滤器”,然后点击添加新的过滤器,进入这个界面:
创建完之后验证一下看看,点击保存。这个过滤器将屏蔽你设置的无效主机名的垃圾流量,但重要的是,每次在ga中看到其他有效的主机名时,记得要将其添加到筛选器正则里面去。当然,这些操作都只适合中小网站,一般情况下都够用,大型网站我也在慢慢研究,我到时候出个付费教程,不想折腾的或者有需要的小伙伴可留言。
总结,这个过滤器功能,有助于防止垃圾邮件、机器人和其他破坏数据完整性的垃圾流量。然而,我经常发现那些不使用这些工具的网站,或者他们使用这些工具的网站,任然出现这些垃圾流量,形式奇形怪状正好可以解决问题。
本文地址:高端网站建设频道 https://www.hkm168.com/web-gdwz/2074.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们处理,谢谢!