专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

武汉SEO是怎样实现网页的排名的,搜索引擎最全面的工作流程

来源:小易整编  作者:小易 发布时间:2019-08-14 12:13
摘要:武汉SEO是怎样实现网页的排名的,搜索引擎最全面的工作流程,大家好、我是笔者,一个从事seo行业两年的菜鸟,因为一些个人的想法。从现在开始我们以至于接下来的两月会陆续的分享一些我从...

大家好、我是笔者,一个从事seo行业两年的菜鸟,因为一些个人的想法。从现在开始我们以至于接下来的两月会陆续的分享一些我从事seo这些年的一些工作经验和心得和大家分享。好的、话不多说。我们开始今天的第一个知识点的分享----搜索引擎的工作原理(或者叫流程)。

搜索引擎工作过程非常复杂,接下来的我们简单介绍搜索引是怎样实现网页的排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对于我们的大部分seoer来说已经足够使用了。

搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HIML代码,存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

(3)索引:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按定格式生成搜索结果页面。

搜索引擎工作原理图

搜索引擎工作原理图

上图所示就是搜索引擎的大致工作流程图,首先搜索引擎会从索引区派出程序(百度也叫蜘蛛),通过链接来到网站上面对我们的网页进行抓取,抓取到网页之后先把数据放到临时数据库,临时数据库就会对我们的网页进行一些预处理考核操作(比如去重、中文分词、去停止词、消噪等等),符合搜索引擎规则的就存放到索取区,反之不符合规则就清理掉。然后搜索引擎就会分类、归档、排序。最终将结果展现给用户。

上面大致是搜索引擎的工作流程,接下来我们去看看具体的一些细节

1.1、抓取

1.1.1是什么抓取网页

SEO

蜘蛛是一个抓取网页的程序;相当于一个普通的用户(网页需要登录查看的不能抓取);通过链接抓取。

常接触的蜘蛛有:百度蜘蛛baiduspider、谷歌机器人Googlebot、360蜘蛛360spider

1.1.2蜘蛛抓取规则

SEO

蜘蛛抓取的规则有很多种:深度优先策略、广度优先策略、大站(高权重)优先策略、时效性优先策略、重要页面优先抓取策略等等。

深度优先策略:从首页出发、顺着链接一直抓取到没有内容可以抓、然后返回其他的栏目或者内容。如图展示:M1-->M2-->M5-->M8-->M6-->M3--S7-->S4

广度优先策略:广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。就好比图中一样的从M1出发、然后访问M2、M3、M4,访问完之后。再接着访问M5、M6、S7、最后访问M8。这就是广度优先策略。从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不可能爬完所有页

面。实际上最大的搜索引也只是爬行和收录了互联网的一小部分。

大站(高权重)优先策略:就是网站是一个大网站、权重高,蜘蛛会特别关注、抓取的也频繁。

时效性优先策略:网站具有时效性内容、比如新闻源网站、一些及时性的新闻也会特别关注。

重要页面优先抓取策略:要讲的有两个方面,第一就是首页、首页是一个网站权重最高的页面。第二个受欢迎的页面、投票越高页面页面越重要。

1.1.3蜘蛛抓取内容

SEO

蜘蛛是通过链接的方式去抓取网站的内容的、对文字的识别度是最高的。图片是有专门的图片蜘蛛来抓取。但是要记住、图片需要加拉特属性便签、这样蜘蛛才能更好的识别图片。对于视频、js、iframe框架是不识别的。

1.1.4影响蜘蛛抓取因素

SEO

需要权限、需要登录的内容蜘蛛是抓取不到的。

路径很长或者路径层次过深也是影响抓取,路径层次最好在3-5层。

Robots文件是蜘蛛和网站的一种协议、禁止抓取网站的内容蜘蛛就不会对网站不抓取。

网站打不开相当于网站不存在、蜘蛛没有去抓取是很正常的。

1.1.5如何判断蜘蛛访问网站

SEO

判断蜘蛛来到网站有两种方法

查看网站服务器日志文件。

通过各大搜索引擎的站长平台去判断。百度有百度站长平台、360有360站长平台。里面添加好网站就可以看蜘蛛是否来到我们网站。

1.2、过滤

SEO

1.2.1过滤系统存在的意义

临时数据库是用来暂时存储蜘蛛抓来的网页的一个地方、对于服务器来说在这里需要对网页进行过滤。过滤需要解决一些没用的资源、节约空间、减少服务器的工作量。另外一些明显的欺骗用户的网页,死链接,空白内容页面等,这些网页对用户、站长和百度来说,都没有足够的价值,因此百度会自动对这些内容进行过滤,以免为用户和您的网站带来不必要的麻烦。

1.2.2影响过滤的因素

页面的打开速度:页面打开速度也是影响搜索引擎过滤的因素之一、国内网页的打开速度<100毫秒、国外空间<200毫秒。网页打开速度可以参考站长工具http://ping.chinaz.com/。

权重:这个没什么说的、就是页面权重高的会得到优先处理的待遇。

页面的质量:页面质量有三个点来确定:

样板,所谓样板就是我们所说的网页相似度、假如说整个网站的相似度很高的话、页面的质量度也就低。

识别,就是内容是否能够被百度直接识别。文字和链接是能够直接被百度识别的、而图片和视频是不能够被百度直接识别,而是通过标签alt来识别。其余的js、cs、iframe框架等等是识别不了的。

相关,所谓相关是指文章标题和文章内容是否相关,相关度越高就越好

时间因素:也就是当下时间发生什么人们关注什么、写的内容就不容易被顾虑掉。比如说世界杯期间。人们关注世界杯、关于世界杯的东西就不容易过滤。

1.3收录

经过上面的一系列抓取、过滤之后、我们的就到了收录的阶段。蜘蛛会把符合规则的就加入到数据库里面。那么百度收录的是那些内容的。

1.3.1收录的内容

收录大概有这些页面标题、页面描述、页面源代码、页面url这些内容。

1.3.2查看收录

单个页面:查看单个页面就只要在百度上搜索一下这个网址就可以、就比如https://www,hkm168,com/这个页面。只需要在百度上搜索一下就可以知道他的收录情况,很明显已经被收录了。

整个网站:要查看整个网站的收录情况就只要一个命令site。Site:你的域名就可以查看整个网站的收录情况。如下图、可以看到整个网站大概收录了330条网页。所有的排名都是在有收录的前提下实现的。

1.3.3收录的常见问题

SEO

新站一个月收录很慢或者只收录首页:新站刚刚搭建、搜索引擎不能判断网站信任度怎么样,所以需要花时间去建立一个信任度。第二就是网站质量的问题、一个新站往往做的内容也不是很多,搜索引擎不能马上判断网站的质量怎么样。所以也会导致收录减慢。

长久没有更新网站,突然一篇文章这样的一个页面会长达1个月或是个半月才有可能收录。

禁忌:首页不要做出flash、不能使用大量图片做成的首页、不能把导航做出图片的链接。

1.4索引

1.4.1索引量

索引量指可以被搜索用户搜索到的网站数据库,索引量工具同时支持站点自定义想要关注的目录,查看某一目录规则下的索引量;索引量不等于流量,索引量会有定期数据波动,属于正常现象。

百度索引数据最快每天更新一次,最迟一周更新一次,不同站点的更新日期可能不同。

您可以查询到近一年中每天的索引量数据,一年前的索引量数据为每月索引量数据。

如果已有流量数据查询不到,请隔日再查,最长间隔一周可查询到数据。

详情可以查看百度官方的资料:https://ziyuan,baidu,com/college/articleinfo?id=806

1.4.2查看索引量

目前site指令的数值是索引量的估算值,比较不佳。百度官方也有提出:推荐站长们使用百度站长平台来查看网站的索引量。

1.4.3页面进入优质索引量条件

有时效性有价值的页面:在这里,时效性和价值是并列关系缺一不可,有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的。

内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容结合在一起,或者増高价值原创内容页面:百度把原创定义为花重要个人页面:这里仅举一个例子,科比在新浪微博开户了即使他不经常更新,但对于百度来说,它仍然是个极重要的页面

到这里为止、我们基本把搜索引擎从开始抓取网页或后面进行排名已经大致讲了一遍了。最后进入索引库的页面通过归档排序就能很好的展现给用户。


本文地址:网络营销频道 https://www.hkm168.com/zhishi/800.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们处理,谢谢!


网络营销
小编:小易整编
相关文章相关阅读
  • c语言的输入函数有哪些

    c语言的输入函数有哪些

    c语言的输入函数有:1、scanf()函数、从标准输入stdin读取格式化输入;2、getchar()函数,从标准输入stdin获取一个字符;3、gets()函数,从标准输入stdin读取一行;4、getch()函数,从stdin流中读取字...

  • 奇异值分解(SVD)简介及其在图片压缩中的示例

    奇异值分解(SVD)简介及其在图片压缩中的示例

    奇异值分解(SVD)是一种用于矩阵分解的方法。它将一个矩阵分解为三个矩阵的乘积,分别是左奇异向量矩阵、右奇异向量矩阵和奇异值矩阵。SVD在数据降维、信号处理、推荐系统等领域广泛应用。通过SVD,我们可以将高维数据降低到低维空间,从而提取出数...

  • 用U盘轻松实现一键重装系统的小白装机教程

    用U盘轻松实现一键重装系统的小白装机教程

    在现代社会,电脑已经成为人们生活中不可或缺的工具。然而,由于各种原因,我们有时候需要重装电脑系统来解决一些问题或提升性能。但是,对于一些小白用户来说,重装系统可能是一项困难的任务。因此,本文将介绍一款小白一键重装系统的u盘装机教程,帮助小白...

  • 因特网能提供的最基本服务有哪些

    因特网能提供的最基本服务有哪些

    因特网能提供的最基本服务有:1、www服务;2、电子邮件e-mail服务;3、远程登录telnet服务;4、文件传输ftp服务;5、usenet网络新闻组服务;6、电子公告牌服务。本教程操作环境:windows7系统、DellG3电脑。因...

  • 某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是cpu的字长,即cpu每次能处理64位二进制数据。字长是cpu的主要技术指标之一,指的是cpu一次能并行处理的二进制位数,字长总是8的整数倍,通常pc机的字长为32位,64位。本教程操作环境:w...

  • 总结CreateJS的详细介绍

    总结CreateJS的详细介绍

    CreateJS库是一款HTML5游戏开发的引擎,是一套可以构建丰富交互体验的HTML5游戏的开源工具包,旨在降低HTML5项目的开发难度和成本,让开发者以熟悉的方式打造更具现代感的网络交互体验。掌握了CreateJS可以更方便的完成HTM...

  • c语言是什么意思

    c语言是什么意思

    一:c语言是什么意思C语言是一门面向过程的、抽象化的通用程序设计语言,广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C语言是仅产生少量的机器语言,以及不需要任何运行环境支持便能运行的高效率程序设计语言。尽管C语言提供了许多低...

  • skype是什么软件

    skype是什么软件

    skype是一种简单的免费软件,使您能够在数分钟之内在世界上的任何角落拨打免费电话,它使用全新的p2p【对等】技术将您与其他skype用户相连接。Skype是一种简单的免费软件,使您能够在数分钟之内在世界上的任何角落拨打免费电话。Sky...

  • 周排行
  • 月排行
  • 年排行