seoer必读的搜索引擎工作原理及算法

2016-09-10 00:16 阅读 776 次 评论 0 条

搜索引擎(Search Engine)是指根据一定的策策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统,也就是大家常说的百度蜘蛛。

yunali

简单地说搜索引擎分为四个大的步骤,但是每一个步骤当中都充斥着几十种升至上百种的百度算法,今天我就简单的介绍一下,蜘蛛工作原理的四大步:

一、抓取

百度蜘蛛其实就是个软件,每天不停息的顺着连接(锚文本、超链接、文本)在互联网上面不断的进行抓取 ,有两种抓取方式:深度抓取和广度抓去。深度抓去就是顺这一个页面一直抓取下去,广度抓去就是把一个页面上的连接都抓去一边之后,在去抓去下一级的链接。为了让百度更好的抓取我们的网站有几种方法:

1、百度站长工具提交。

2、相关性的友情链接(相关性、对方权重、快照时间、更新频率、友链数量、是否被K(site+域名)、主业还是栏目页(有时栏目也比主页权重高,建议站仅在首页设置友链,内页不再设置)

3、多种渠道发布外链,一锚文字的形式最佳。

4、url中不要包含中文

5、rl不要超过255字

6、网站稳定性、速度

7、js、flash、图片(要有alt)、需要用户登录才能访问的页面、table等技术百度是不抓取的。以上都会影响百度对你网站的抓去。

二、过滤

蜘蛛抓去之后,搜索引擎抓会对网页进行一个简单的判断,是否达到了收录标准,排除一些不合格的页面。如果不符合百度规范则继续把URL加入到URL 队列中,如果符合收录就会下载网页内容,那页面到底合不合格,百度会从以下几点来判断给每一个一面综合得分。

  • 网页没有内容,或者内容小于样板文字
  • 网站时间
  • 受众人群
  • 网站权重
  • 信任度(蜘蛛由于长时间对你的网站抓去,他会对你的网站一个判断,这个判断,我称之为信任度。这也和一个网站搭建好之后特别容易有排名的道理是一样的,第一印象嘛!呵。如果你的网站经常改版,产生死链,或者被黑过、更换网站主题思想,这样的网站当然就很容易被过滤到)此时谨记,网站上的文章一定不要再到别的站点发布!

三、存储

蜘蛛把过滤好的站点存放在百度自己的数据库里面,以方便用户搜索i关键词时候,短时间内展现出来,也就是我们常说的索引量,或这说收录,索引量多少并不能影响排名,但是它能反映出网站的质量,

索引能记录什么?

Title、describe、keywords、url、源代码

在一定时间内,百度都会有记录的。

四、排序

当用户搜索某个关键词的时候,再其数据库里面会有一个二次过滤,根据相关性等因素进行排序,最终展现给用户。

第一代搜索引擎,是通过人工的方式解锁。是由雅虎的两位创始人手工完成海量信息的分类,让原始级的网民,在无边的网络海洋中,第一次有了一张导航的地图。

第二代搜索引擎,是在第一代搜索引擎基础上发展而来,可能觉得人工分类的方式实在很难满足数以亿计的信息,所以,搜索蜘蛛从人工编辑升级到了爬虫抓取。从人工编辑进化到了机器采集,从信息繁杂的门户界面简化成了搜索框,比如后来的我们天天使用的百度搜索的框框。

同样是斯坦福大学的两个大学生,同样是在车库,谷歌就这样在第一代搜索引擎产生的四年之后,创造出第二代搜索引擎,谷歌也因此成为的搜索霸主。这就是搜索引擎的简史,而所谓的第三代搜索引擎,是360的自称,大江就不做多评,感兴趣的朋友可以多查询资料,分享出来也可以给大江一份,再次谢谢!

不管怎么样,我们目前使用最多的还是百度搜搜引擎,而很大一部分人,使用360浏览器,也就跟着使用了好搜。好搜在国内是第二大搜索引擎,大概占有百分之三十多的市场,而百度就占了剩下的极大部分市场。至于更专业的人士,搞程序的前端工作人员,外贸SEO等等,还是使用谷歌等其他搜索引擎,对于很多想使用谷歌搜索而不能访问的朋友,只能是很不方便了。

版权声明:本文著作权归济南seo大江所有,欢迎分享本文,谢谢支持!
转载请注明:seoer必读的搜索引擎工作原理及算法 | 济南大江seo技术博客
分类:网站优化 标签:

发表评论


表情