专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

搜索引擎优化原理:抓取频次是多少?什么情况下可以导致抓取问题

来源:小易整编  作者:小易 发布时间:2019-08-27 09:06
摘要:搜索引擎优化原理:抓取频次是多少?什么是抓取预算?百度算法在不断更新,唯一不变的就是索引、抓取这两大核心。什么情况下可以导致抓取问题?下面,由笔者为大家详细的介绍一下吧,前...

搜索引擎优化原理:抓取频次是多少?什么是抓取预算?百度算法在不断更新,唯一不变的就是索引、抓取这两大核心。什么情况下可以导致抓取问题?下面,由笔者为大家详细的介绍一下吧!

前两天我写过网站收录下降的不同原因中,就提过抓取这个概念,不同类型的网站上的内容千差万别的,比如电商网站,如淘宝,就有大量的产品链接;内容输出型如:CMS,会有大量的文章单链接;论坛交互型。如:知乎,它是含有大量的评论回复链接,那么,搜索引擎蜘蛛在抓取时,应该也是区别对待的,怎么抓,抓多少,这就是‘抓取预算’的概念了,这个在国内叫抓取频率,它是由 Google 提出来的,谷歌工程师对此解释更加丰富!并且表示这个因素直接影响PageRank,也就是咱们说的排名…..

虽然SEO这几年的发展很快,但有些东西是不会大改变的,比如索引,抓取这两个核心。高品质的内容,权威性和相关链接的设计,以及一个良好的网站结构一直是搜索引擎喜欢的,算法也会围绕这些展开,想办法让网站变好是一个搜索引擎优化策略的所有关键,但咱们试想一下,如果搜索引擎无法抓取和索引你你的网站网页,这一切是不是都是白谈了。就像有些朋友说我明明索引很多页面,为啥还是没有好的排名,也许从抓取效率来看,其实很不好,收录了,但是质量不高。

 

搜索引擎优化原理:抓取频次是多少?什么情况下可以导致抓取问题?


搜索引擎优化原理:抓取频次是多少?什么情况下可以导致抓取问题?

 

什么是抓取预算(抓取频次)?

既然是预算,那么顾名思义就是投资,您比如老板给我们一定数额的投资预算,我们去投资项目,这个项目就是蜘蛛的抓取,至于派多少蜘蛛,抓取多少量,就是预算了,这个老板呢,就是谷歌智能了!我们想做的就是花这么多钱,投资效益最大化,抓取也一样,同样的抓取预算,我们追求抓取效率最高!

搜索引擎蜘蛛(也被称为搜索引擎爬虫和机器人)抓取你的网站内容,然后将其添加到他们的索引数据库中。一旦抓取和索引,你的网站的网址就会给蜘蛛一个印象,印象好就会有几率出现在搜索引擎结果页面(SERP中)。特别是对于大于10000多页的网站,抓取的效率变得更加重要,因为抓取预算一定范围内,抓取时间越长,一般都会有问题,严重的会出现抓取陷阱; 因此,它是非常重要的。

为什么是重要?

咱们刚才说了这个概念,那么这个预算会不会有所减少呢?当然会了,您想想啊,老板给你的钱,花的很冤枉,老板会不会减少预算,甚至撤资,严重的你还要被炒鱿鱼啊!搜索引擎也是如此,搜索引擎蜘蛛是定量的,它对你网站的投资也是根据它的印象来进行智能加减,咱说个比较严重的假如您的站点很糟糕,搜索引擎蜘蛛完全有可能将停止抓取,因为一旦其抓取的预算用完了,它也就‘撤资’了,SEOer们也许有时候会发现自己的站点抓取频次下降的厉害或者变为0,这个时候也有可能是预算用完了。

据谷歌工程师称,抓取的两个因素:

1、网址结构清晰,伪静态会更频繁地被抓取和索引
2、网站的内容的新鲜度以及原创性也会大概率增加抓取

什么情况下可以导致抓取问题?

实际操作中其实有许多能影响搜索引擎抓取你网站的问题,您比如咱们见的比较多的–有很多状态码错误的网站,例如,大量的404和500服务器连接错误,很可能是正在浪费爬行预算。一般情况下,当搜索引擎蜘蛛访问一个网页有错误,它就会移动到下一个URL。尤其是服务器的错误,当它们发现一个接一个的错误之后,就会有大概率离开。另一方面,如果蜘蛛没离开,还在抓取,那么这个时候它已经进入了死循环,咱们有时候会发现抓取频次突然出现峰值,就是这个原因,进入循环的影响是什么–可能会导致网站服务器资源的浪费以及蜘蛛抓取速度也将减慢,所以建议在此多去监控。以下几个情况是很容易导致错误:

一、过多的查询参数

这个问题是经常出现在应用过滤器时使用的查询参数电子商务网站中,例如,咱们看看亚马逊的一个URL:

https://www,amazon,cn/dp/B00BKQT73Y/ref=gwgfloorv1_AGS_nal_2?_encoding=UTF8&ie=UTF8&smid=A2EDK7H33M5FFG&pf_rd_p=8498a6d0-c1f0-4591-b4d3-96d0e6e02047&pf_rd_s=desktop-4&pf_rd_t=36701&pf_rd_i=desktop&pf_rd_m=A1AJ19PSB66TGU&pf_rd_r=V06D5QYF59E3T4H9FK2S&pf_rd_r=V06D5QYF59E3T4H9FK2S&pf_rd_p=8498a6d0-c1f0-4591-b4d3-96d0e6e02047,

虽然亚马逊现在已经不会太依赖SEO了,但是便于大家理解就用它了。咱们看看这个页面,我选择了适用人群,颜色等不同参数型号形成的URL,这样的链接每天任何用户都是可以添加过滤器的,每天可能就是上万个,如果你没做好相关优化措施,这样的结果就是会消耗大量的蜘蛛抓取预算。这样的链接建议大家去写robots.txt文件,或者用canonical的规范标签去规范它,减少它们被编入索引,减少它会被抓取的概率。

二、网站的重复内容

同样,虽然规范标签也是可以用来防止重复的內容被再次索引,但是这并不妨碍它被抓取。这些标签只是告诉你不要索引我,但是我还是可以抓取,消耗抓取预算的。

当一个网站的多个版本都可以被搜索引擎的蜘蛛访问的话,例如:

       ,com
       https://www.bbbbb,com/kk
       https://www.bbbbb,com/kk.html

这4个链接都可以访问,并且内容一模一样,那么它抓取就消耗了4次,本来一次就可以完成的!怎么办?301重定向,确定好首选网址即可。好了以上就是抓取预算的相关知识,虽然我写的偏简单,但是实际操作是比较复杂的,有的甚至要结合其他操作来解决排查这个问题,目的还是为了最大限度的利用好蜘蛛抓取预算,做好投资。

 

文本总结,以上就是关于搜索引擎优化原理:抓取频次是多少?什么情况下可以导致抓取问题的全部内容。一般网站结构清晰和静态页面更容易被抓取及我们经常说的文章的原创度与及时性。如果你的网站出现大量的404和500服务器连接错误的话,就会导致蜘蛛抓取不到你的页面,需要进行排查。小编真诚希望上述内容能够帮助到您。

本文地址:武汉SEO频道 https://www.hkm168.com/seojishu/1174.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们处理,谢谢!


武汉SEO
小编:小易整编
相关文章相关阅读
  • 某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是cpu的字长,即cpu每次能处理64位二进制数据。字长是cpu的主要技术指标之一,指的是cpu一次能并行处理的二进制位数,字长总是8的整数倍,通常pc机的字长为32位,64位。本教程操作环境:w...

  • c语言是什么意思

    c语言是什么意思

    一:c语言是什么意思C语言是一门面向过程的、抽象化的通用程序设计语言,广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C语言是仅产生少量的机器语言,以及不需要任何运行环境支持便能运行的高效率程序设计语言。尽管C语言提供了许多低...

  • skype是什么软件

    skype是什么软件

    skype是一种简单的免费软件,使您能够在数分钟之内在世界上的任何角落拨打免费电话,它使用全新的p2p【对等】技术将您与其他skype用户相连接。Skype是一种简单的免费软件,使您能够在数分钟之内在世界上的任何角落拨打免费电话。Sky...

  • 计算机按工作原理可分为什么

    计算机按工作原理可分为什么

    计算机按工作原理可分为数字计算机和模拟计算机。数字式电子计算机是当今世界电子计算机行业中的主流,其内部处理的是一种称为符号信号或数字信号的电信号,它有着运算速度快、运算精度高、通用性强等特点。模拟计算机是根据相似原理,用一种连续变化的模拟量...

  • 什么是电子版文件

    什么是电子版文件

    电子版文件是把纸质文档以计算机软件,如word、excel、pp、cad、photoshop等软件编辑出来,可以通过邮件、u盘、网络或其他传送方式传送的文件。本文操作环境:Windows7系统,DellG3电脑。电子版文件是把纸质文档以计...

  • 什么是构造函数?详解JavaScript中的构造函数

    什么是构造函数?详解JavaScript中的构造函数

    作为原型和原型链的基础,先了解清楚构造函数以及它的执行过程才能更好地帮助我们学习原型和原型链的知识。本篇文章带大家详细了解一下javascript中的构造函数,介绍一下怎么利用构造函数创建一个js对象,希望对大家有所帮助!一个普通的函数被用...

  • 计算机的三类总线分别是什么?

    计算机的三类总线分别是什么?

    计算机的三类总线分别是:控制总线、地址总线和数据总线。控制总线用于将微处理器控制单元的信号,传送到周边设备;地址总线用来指定在ram之中储存的数据的地址;数据总线用于在cpu与ram之间来回传送需要处理或是需要储存的数据。总线(Bus)是计...

  • 2k屏幕是什么意思

    2k屏幕是什么意思

    2k屏幕是指分辨率能够达到2560*1440的屏幕。2k是一个通用术语,指屏幕或者内容的水平分辨率达约2000像素的分辨率等级;又因“16:9”的比例是高清晰度视频规格的国际标准,所以2k分辨率在视频制作、显示屏等领域常见格式为2560*1...

  • 周排行
  • 月排行
  • 年排行