在配置了七牛云的动静分离后,七牛镜像会自动在创建一个robots.txt(这个robots.txt在七牛云存储空间),禁止所有搜索引擎抓取,以防止这个镜像站被百度抓取收录导致主站降权被K。但使用这个robots.txt之后,以前百度和360搜索结果中的缩略图都会被K掉。因为你的图片被禁止抓取了!所以需要改良一下这个robots.txt文件,好让蜘蛛能抓取到图片。当然,直接使用这个robots.txt,对SEO肯定是没问题的,避免了搜索引擎抓取到重复的内容。改与不改自己权衡下吧。
改良robots.txt
下方是改良后的robots.txt
# robots.txt generated at http://portal.qiniu.com User-agent: Baiduspider Allow: /wp-content/uploads/*.jpg$ Allow: /wp-content/uploads/*.png$ Disallow: / User-agent: 360Spider Allow: /wp-content/uploads/*.jpg$ Allow: /wp-content/uploads/*.png$ Disallow: / User-agent: Baiduspider-image Allow: /wp-content/uploads/*.jpg$ Allow: /wp-content/uploads/*.png$ Disallow: / User-agent: 360Spider-Image Allow: /wp-content/uploads/*.jpg$ Allow: /wp-content/uploads/*.png$ Disallow: / User-agent: * Disallow: /
上方代码意思就是允许百度和360抓取文章中(uploads文件夹下)以jpg/png结尾图片,其他搜索引擎一律禁止抓取!
这样做的优点:
- ①、在避免搜索引擎收录七牛重复内容的同时,允许其收录文章的特色图片和内容配图;
- ②、禁止抓取可以极大的节省七牛空间的GET次数,因为搜索引擎的每一次抓取都将产生一次GET,而七牛免费空间的GET次数是有限制的,我们完全没必要白白浪费。
然后,登陆到你使用的七牛云,选择对象存储->选定存储空间->内容管理找到robots.txt删除,再点击上方的 “上传文件”直接改良后的robots.txt文件。
刷新预取文件
如果只到这儿你去刷新查看robots.txt文件还是以前的。因为七牛云在各个cdn节点有缓存,所以需要清除缓存即刷新预取文件。
博主在刚接触七牛云时,修改本站logo图片,上传删除几次都没修改成功并且七牛空间里logo图片已是刚上传新版logo,前台就是不显示新logo。可给郁闷坏了 ,后面才知道是缓存造成的。
再试试看看你的robots.txt文件是否修改过来没有。本站是http://cdn.wosn.net/robots.txt
百度站长平台检测robots规则是否生效
用本文链接来看看:
至此,如何正确配置七牛云存储的robots.txt文件就结束了,还想再折腾下可以看看下面。
其他避免七牛云给网站造成降权方法:
通过UserAgent来屏蔽七牛镜像爬虫对网页文件的抓取,也是一个比较合理的处理方案,将下面的代码添加到网站的根目录的index.php文件或者添加到主题目录的functions.php文件中。
- if(?strpos($_SERVER['HTTP_USER_AGENT'],'qiniu-imgstg-spider')?!==?false)?{
- header('HTTP/1.1?503?Service?Temporarily?Unavailable');
- echo?'防七牛镜像';
- exit;
- }
如果您的wordpress使用了WP Super Cache插件的小伙伴请将七牛的ua加入到禁止缓存列表中,设置->WP Super Cache->高级->找到已拒绝的用户代理(User Agent)->添加qiniu-imgstg-spider,如下截图。
完成此方法后我们去删除一下七牛的缓存,然后再次访问的时候就会返回503,说明已经成功。
ps:本文部份内容来自张戈博客和铭泰网络。
评论