如何正确配置七牛云存储的robots.txt文件

沃森博客 2017年9月13日10:44:36WordPress评论8161阅读模式

在配置了七牛云的动静分离后,七牛镜像会自动在创建一个robots.txt(这个robots.txt在七牛云存储空间),禁止所有搜索引擎抓取,以防止这个镜像站被百度抓取收录导致主站降权被K。但使用这个robots.txt之后,以前百度和360搜索结果中的缩略图都会被K掉。因为你的图片被禁止抓取了!所以需要改良一下这个robots.txt文件,好让蜘蛛能抓取到图片。当然,直接使用这个robots.txt,对SEO肯定是没问题的,避免了搜索引擎抓取到重复的内容。改与不改自己权衡下吧。

如何正确配置七牛云存储的robots.txt文件

改良robots.txt

下方是改良后的robots.txt

# robots.txt generated at http://portal.qiniu.com
User-agent: Baiduspider
Allow: /wp-content/uploads/*.jpg$
Allow: /wp-content/uploads/*.png$
Disallow: /
User-agent: 360Spider
Allow: /wp-content/uploads/*.jpg$
Allow: /wp-content/uploads/*.png$
Disallow: /
User-agent: Baiduspider-image
Allow: /wp-content/uploads/*.jpg$
Allow: /wp-content/uploads/*.png$
Disallow: /
User-agent: 360Spider-Image
Allow: /wp-content/uploads/*.jpg$
Allow: /wp-content/uploads/*.png$
Disallow: /
User-agent: *
Disallow: /

上方代码意思就是允许百度和360抓取文章中(uploads文件夹下)以jpg/png结尾图片,其他搜索引擎一律禁止抓取!

这样做的优点:

  • ①、在避免搜索引擎收录七牛重复内容的同时,允许其收录文章的特色图片和内容配图;
  • ②、禁止抓取可以极大的节省七牛空间的GET次数,因为搜索引擎的每一次抓取都将产生一次GET,而七牛免费空间的GET次数是有限制的,我们完全没必要白白浪费。

然后,登陆到你使用的七牛云,选择对象存储->选定存储空间->内容管理找到robots.txt删除,再点击上方的 “上传文件”直接改良后的robots.txt文件。

如何正确配置七牛云存储的robots.txt文件

 

刷新预取文件

如果只到这儿你去刷新查看robots.txt文件还是以前的。因为七牛云在各个cdn节点有缓存,所以需要清除缓存即刷新预取文件。

博主在刚接触七牛云时,修改本站logo图片,上传删除几次都没修改成功并且七牛空间里logo图片已是刚上传新版logo,前台就是不显示新logo。可给郁闷坏了 如何正确配置七牛云存储的robots.txt文件 如何正确配置七牛云存储的robots.txt文件 ,后面才知道是缓存造成的。

如何正确配置七牛云存储的robots.txt文件

再试试看看你的robots.txt文件是否修改过来没有。本站是http://cdn.wosn.net/robots.txt

 

百度站长平台检测robots规则是否生效

用本文链接来看看:

如何正确配置七牛云存储的robots.txt文件

再来看看缓存图片:
如何正确配置七牛云存储的robots.txt文件

至此,如何正确配置七牛云存储的robots.txt文件就结束了,还想再折腾下可以看看下面。

其他避免七牛云给网站造成降权方法:

通过UserAgent来屏蔽七牛镜像爬虫对网页文件的抓取,也是一个比较合理的处理方案,将下面的代码添加到网站的根目录的index.php文件或者添加到主题目录的functions.php文件中。

  1. if(?strpos($_SERVER['HTTP_USER_AGENT'],'qiniu-imgstg-spider')?!==?false)?{
  2. header('HTTP/1.1?503?Service?Temporarily?Unavailable');
  3. echo?'防七牛镜像';
  4. exit;
  5. }

如果您的wordpress使用了WP Super Cache插件的小伙伴请将七牛的ua加入到禁止缓存列表中,设置->WP Super Cache->高级->找到已拒绝的用户代理(User Agent)->添加qiniu-imgstg-spider,如下截图。

如何正确配置七牛云存储的robots.txt文件

完成此方法后我们去删除一下七牛的缓存,然后再次访问的时候就会返回503,说明已经成功。

ps:本文部份内容来自张戈博客和铭泰网络。

沃森博客
  • 本文由 发表于 2017年9月13日10:44:36
  • 本文来自互利网收集整理,问题反馈联系邮箱:wosnnet@foxmail.com,转载请务必保留本文链接:https://wosn.net/541.html

发表评论