您当前的位置: 首页 > 网站编程 > PHP教程 > 用PHP读取超大文件的实例代码

用PHP读取超大文件的实例代码

作者:不详 来源:网络 发布时间: 2014-08-20 22:07 点击:
去年年底的各种网站帐号信息的数据库泄漏,很是给力啊,趁机也下载了几个数据库,准备学学数据分析家来分析一下这些帐号信息。虽然这些数据信息都已经被整理过的,不过自己拿来学习也挺有用的,毕竟有这么大的数据量。 数据量大带来的问题就是单个文件很大,能够打开这

用PHP读取超大文件的实例代码

  去年年底的各种网站帐号信息的数据库泄漏,很是给力啊,趁机也下载了几个数据库,准备学学数据分析家来分析一下这些帐号信息。虽然这些数据信息都已经被“整理”过的,不过自己拿来学习也挺有用的,毕竟有这么大的数据量。

  数据量大带来的问题就是单个文件很大,能够打开这个文件相当不容易,记事本就不要指望了,果断死机。用MSSQL的客户端也打不开这么大的SQL文件,直接报内存不足,原因据说是MSSQL在读取数据的时候,是一次性地将读取到的数据放在内存中,如果数据量过大,而内存不足,则会直接导致系统瘫掉。

  Navicat Premium

  这儿推荐一个软件Navicat Premium,相当给力啊,几百兆的SQL文件轻松就打开了,一点都不卡。而且这个客户端软件支持MSSQL、MYSQL、Oracle……等等各种数据库的连接,其它的很多功能就自己慢慢研究了。

  虽然用Navicat可以打开CSDN这个274MB的SQL文件,但是内容却是没意义的,而且也不方便对这些帐号信息进行查询、分类、统计等等操作。唯一的方法就是把这些数据一条一条地读取出来,然后分拆每条记录的不同片段,再将这些片段以数据字段的格式存入数据库,这样就可以方便以后的使用了。

  使用PHP读取超大文件

  PHP有很多种文件读取的方式,根据目标文件的不同,采取更合适的方法,可有效地提高执行效率。由于CSDN数据库文件很大,所以我们尽量不在短时间内全都读取出来,毕竟每读取一条数据还要对其分拆和写入操作。那么比较合适的方式就是对文件进行分区域地读取,通过使用PHP的fseek和fread相结合,即可做到随意读取文件中的某一部份数据,下面是实例代码:

  复制代码 代码如下:

  function readBigFile($filename, $count = 20, $tag = "rn") {

  $content = "";//最终内容

  $current = "";//当前读取内容寄存

  $step= 1;//每次走多少字符

  $tagLen = strlen($tag);

  $start = 0;//起始位置

  $i = 0;//计数器

  $handle = fopen($filename,'r+');//读写模式打开文件,指针指向文件起始位置

  while($i < $count && !feof($handle)) {

  fseek($handle, $start, SEEK_SET);//指针设置在文件开头

  $current = fread($handle,$step);//读取文件

  $content .= $current;//组合字符串

  $start += $step;//依据步长向前移动

  //依据分隔符的长度截取字符串最后免得几个字符

  $substrTag = substr($content, -$tagLen);

  if ($substrTag == $tag) { //判断是否为判断是否是换行或其他分隔符

  $i++;

  $content .= "<br />";

  }

  }

  //关闭文件

  fclose($handle);

  //返回结果

  return $content;

  }

  $filename = "csdn.sql";//需要读取的文件

  $tag = "n";//行分隔符 注意这里必须用双引号

  $count = 100;//读取行数

  $data = readBigFile($filename,$count,$tag);

  echo $data;

  关于函数传入的变量$tag的值,根据系统不一样,传入的值也是有区别的:Windows用”rn”,linux/unix用”n”,Mac OS用”r”。

  程序执行的大概流程:先定义读取文件的一些基础变量,然后打开文件,将指针定位在文件的指定位置,并读取指定大小的内容。每读取一次将内容存储在变量中,直到达到读取要求的行数或文件结束。

  绝不要假定程序中的一切都将按计划运行。

  根据上面的代码,虽然能够得到文件中指定位置、指定大小的数据,但这整个过程只执行了一次,并不能得到所有的数据。其实要得到所有的数据,可以在这个循环的外层再添加判断文件是否结束的循环,但这很浪费系统资源,甚至由于文件过大一直没法读完而导致PHP执行超时。另一种方法就是记录并存储上次读取数据后指针所在的位置,然后再次执行该循环的时候,将指针定位在上次结束的位置,这样就不存在一次循环要把文件从头读到尾的情况。

  其实CSDN这个数据库我到现在都还没有导入数据库,因为当时泄漏后没几天CNBETA上就有一个分析了,呵呵,动作太快了。当看到别人已经做了这个事之后,自动就没有多少动力来做了,不过为了学习,还是要抽时间把这个事完成了。
分享到:
本文"用PHP读取超大文件的实例代码"由远航站长收集整理而来,仅供大家学习与参考使用。更多网站制作教程尽在远航站长站。
顶一下
(0)
0%
踩一下
(0)
0%
[点击 次] [返回上一页] [打印]
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
关于本站 - 联系我们 - 网站声明 - 友情连接- 网站地图 - 站点地图 - 返回顶部
Copyright © 2007-2013 www.yhzhan.com(远航站长). All Rights Reserved .
远航站长:为中小站长提供最佳的学习与交流平台,提供网页制作与网站编程等各类网站制作教程.
官方QQ:445490277 网站群:26680406 网站备案号:豫ICP备07500620号-4