您当前的位置: 首页 > 网站编程 > PHP教程 > PHP 简易爬虫

PHP 简易爬虫

作者:不详 来源:网络 发布时间: 2011-12-30 17:52 点击:
function get_urls($url) { $url_array=array(); $the_first_content=file_get_contents($url); $the_second_content=file_get_contents($url); $pattern1=/http:\/\/[a-zA-Z0-9\.\?\/\-\=\\:\+\-\_\'\]+/; $pattern2=/http:\/\/[a-zA-Z0-9\.]+/; preg_match_all($patt

PHP 简易爬虫

  function get_urls($url)
  
  {
  
  $url_array=array();
  
  $the_first_content=file_get_contents($url);
  
  $the_second_content=file_get_contents($url);
  
  $pattern1="/http:\/\/[a-zA-Z0-9\.\?\/\-\=\&\:\+\-\_\'\"]+/";
  
  $pattern2="/http:\/\/[a-zA-Z0-9\.]+/";
  
  preg_match_all($pattern2,$the_second_content,$matches2);
  
  preg_match_all($pattern1,$the_first_content,$matches1);
  
  $new_array1=array_unique($matches1[0]);
  
  $new_array2=array_unique($matches2[0]);
  
  $final_array=array_merge($new_array1,$new_array2);
  
  $final_array=array_unique($final_array);
  
  for($i=0;$i
  
  {
  
  echo$final_array[$i]."
  
  ";
  
  }
  
  }
  
  get_urls("http://www.baidu.com");

分享到:
本文"PHP 简易爬虫"由远航站长收集整理而来,仅供大家学习与参考使用。更多网站制作教程尽在远航站长站。
顶一下
(0)
0%
踩一下
(0)
0%
[点击 次] [返回上一页] [打印]
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
关于本站 - 联系我们 - 网站声明 - 友情连接- 网站地图 - 站点地图 - 返回顶部
Copyright © 2007-2013 www.yhzhan.com(远航站长). All Rights Reserved .
远航站长:为中小站长提供最佳的学习与交流平台,提供网页制作与网站编程等各类网站制作教程.
官方QQ:445490277 网站群:26680406 网站备案号:豫ICP备07500620号-4