您当前的位置: 首页 > 网站运营 > 搜索优化 > 蜘蛛算法分析

蜘蛛算法分析

作者:guanchaofeng 来源:本站整理 发布时间: 2009-06-06 21:43 点击:
最近因为自己网站需要写了一个简单的蜘蛛,通过这次开发学习了一些蜘蛛的原理。我就把我自己的感受写出来也许能帮助大家更好的了解蜘蛛,更好的做好网站SEO。 蜘蛛最主要工作就是获取站点内容分析页面内的链接,在内容抓取下来后就开始分析链接页面的链接是否

蜘蛛算法分析

  最近因为自己网站需要写了一个简单的蜘蛛,通过这次开发学习了一些蜘蛛的原理。我就把我自己的感受写出来也许能帮助大家更好的了解蜘蛛,更好的做好网站SEO。
  
  蜘蛛最主要工作就是获取站点内容分析页面内的链接,在内容抓取下来后就开始分析链接页面的链接是否具有抓取的必要,并分析除去链接后本页面的内容在自己数据库内是否有太多重复内容或相似内容,然后入库。
  
  蜘蛛分析方法:
  
  1.分析权重:权重是通过蜘蛛长年累月的爬行,计算出一个链接的重要性(主要是由包含有此链接的域名的权重,数量和此链接的更新频率来决定)。
  
  权重分析分两个部份:
  
  一、被抓取链接权重分析:如果此页面权重高则此页面内所分析出来的其它链接都抓取,否则进行外链权重分析.
  
  二、页面内包含链接权重分析:如果被抓取链接权重低那么就进行包含链接分析,对于权重高的链接,我的解决方案是在任何地方发现这个链接就抓取内容.对于权重中等的链接,对比上次抓取时间如果大于3天就抓取否则放弃.对于权重低或没有权重的链接分两个方面:一、对于低权重或没有权重的链接查询数据库是否有重复内容,如果没有信息就抓取.如果数据库有此链接的相关信息就判断此链接从开始抓取至今是否超过2个月,没超过抓取否则放弃,等每月大更新再抓取.
  
  2.内容对比:经过权重分析后就可以抓取内容了,内容抓取下来后去除一些不必要的信息.接下来就应该比较数据库内是否有重复内容(我最开先是用的sql语句去查询数据库,结果发现实在是太耗CPU了,后来我就改成在数据库内建立一个Hash字段的索引设为不可重复来保存内容的Hash值以此来减轻CPU负担)以此来判断是否应该保存结果.
  
  这就是一个简单蜘蛛的主要功能(真正的蜘蛛不可能只有这些).程序写完后运行基本满意.
  
  抓取10个线程,分析10个线程
  
  intel(R)Pentium(R)DualT23301.60hz(双核)1g内存
  
  网通2M
  
  运行此蜘蛛程序和数据库总共占用CPU在30%-60%之间30分钟抓取数量在6000-8000个页面左右.

分享到:
本文"蜘蛛算法分析"由远航站长收集整理而来,仅供大家学习与参考使用。更多网站制作教程尽在远航站长站。
顶一下
(0)
0%
踩一下
(0)
0%
[点击 次] [返回上一页] [打印]
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
关于本站 - 联系我们 - 网站声明 - 友情连接- 网站地图 - 站点地图 - 返回顶部
Copyright © 2007-2013 www.yhzhan.com(远航站长). All Rights Reserved .
远航站长:为中小站长提供最佳的学习与交流平台,提供网页制作与网站编程等各类网站制作教程.
官方QQ:445490277 网站群:26680406 网站备案号:豫ICP备07500620号-4