您当前的位置: 首页 > 网站运营 > 搜索优化 > Linux/Nginx查看搜索引擎蜘蛛爬虫的行为

Linux/Nginx查看搜索引擎蜘蛛爬虫的行为

作者:xiaoxiao 来源:未知 发布时间: 2013-10-12 15:48 点击:
摘要 做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是最近一天的日志

Linux/Nginx查看搜索引擎蜘蛛爬虫的行为

    摘要
  
  做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度。
  
  Linux shell命令
  
  1. 百度蜘蛛爬行的次数
  
  cat access.log | grep Baiduspider | wc
  
  最左面的数值显示的就是爬行次数。
  
  2. 百度蜘蛛的详细记录(Ctrl C可以终止)
  
  cat access.log | grep Baiduspider
  
  也可以用下面的命令:
  
  cat access.log | grep Baiduspider | tail -n 10
  
  cat access.log | grep Baiduspider | head -n 10
  
  只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
  
  3. 百度蜘蛛抓取首页的详细记录
  
  cat access.log | grep Baiduspider | grep “GET / HTTP”
  
  百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
  
  4. 百度蜘蛛派性记录时间点分布
  
  cat access.log | grep “Baiduspider ” | awk ‘{print $4}’
  
  5. 百度蜘蛛爬行页面按次数降序列表
  
  cat access.log | grep “Baiduspider ” | awk ‘{print $7}’ | sort | uniq -c | sort -r
  
  文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。
  
  附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录
  
  cat access.log | grep Mediapartners
  
  Mediapartners-Google是什么呢?Google adsense广告之所以能与内容相关,因为每个包含着adsense的广告被访问后,很快就有个Mediapartners-Google蜘蛛来到这个页面,所以几分钟后再刷新就能显示相关性广告了,真厉害啊!

分享到:
本文"Linux/Nginx查看搜索引擎蜘蛛爬虫的行为"由远航站长收集整理而来,仅供大家学习与参考使用。更多网站制作教程尽在远航站长站。
顶一下
(3)
100%
踩一下
(0)
0%
[点击 次] [返回上一页] [打印]
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
关于本站 - 联系我们 - 网站声明 - 友情连接- 网站地图 - 站点地图 - 返回顶部
Copyright © 2007-2013 www.yhzhan.com(远航站长). All Rights Reserved .
远航站长:为中小站长提供最佳的学习与交流平台,提供网页制作与网站编程等各类网站制作教程.
官方QQ:445490277 网站群:26680406 网站备案号:豫ICP备07500620号-4