实战分享:网站被蜘蛛误封robots,应该怎样处理?

2016-10-02 15:26 阅读 765 次 评论 0 条

一、什么是robots

这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站上创建一个robots.txt,在文件中声明改网站中哪些目录不让搜索引擎收录。(robots.txt文件应该放置在网站根目录下。)Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Spider在访问一个网站时,会首页检查该网站的根域名下是否有一个叫robots.txt的纯文本(使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑 )

实战分享:网站被蜘蛛误封robots,应该怎样处理?

二、robots的常用法

1、robots的用法

User-agent:定义进制搜索引擎名字,比如说:百度(Baiduspider)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜索引擎 Disallow:不允许收录

Allow:允许收录

案例:

User-agent: * (声明禁止所有的搜索引擎抓取以下内容)

Disallow:/me/(禁止网站blog栏目下所有的页面。比如说:/me/dajiang.html)

Disallow:/me(比如说:/meidajiang/dajiang.html也会被屏蔽。)

以上两种情况一定要明白,那么robots就没什么难的事情了

Disallow:*?*(屏蔽掉动态路径)

三、网站误封禁了robots该怎么办?

robots文件是搜索生态中很重要的一个环节,同时也是一个很细节的环节。很多站长同学在网站运营过程中,很容易忽视robots文件的存在,进行错误覆盖或者全部封禁robots,造成不必要损失!误封禁了robots以后,立马去修正网站的robots文件。将封禁改为答应,使spider来到网站以后,不被拒绝,能够顺畅的进入网站,并抓取网站上面的内容,为录入发明前提条件。

1.修改Robots封禁为允许,然后到百度站长后台检测并更新Robots。

1

2.在百度站长后台抓取检测,此时显示抓取失败,没关系,多点击抓取几次,触发蜘蛛抓取站点。

2

3.在百度站长后台抓取频次,申请抓取频次上调。

3

4.百度反馈中心,反馈是因为误操作导致了这种情况的发生。

3-2

5.百度站长后台链接提交处,设置数据主动推送(实时)。

5

6.更新sitemap网站地图,重新提交百度,每天手工提交一次。

四、误封禁robots形成的结果

假如网站的robots封禁,就会形成网站上的一切内容不会被搜索引擎抓取,更不会被录入,致使网站及一切页面内容都无法在收索引擎中展示,用户也不能搜索到,就别提啥搜索引擎优化排行啥的了,会导致网站流量急速下降。

总结:误封禁robots形成的结果仍是挺严峻的,但网站误封禁了以后,先找到被误封的因素,然后按照处理误封robots办法教程进行解封,只要按照上面的步骤进行操作,相信网站就能够很快的就能恢复了。

 

版权声明:本文著作权归济南seo大江所有,欢迎分享本文,谢谢支持!
转载请注明:实战分享:网站被蜘蛛误封robots,应该怎样处理? | 济南大江seo技术博客
分类:网站优化 标签:

发表评论


表情