PHP获取网页内容的方法

2023-08-07 02:37:09

PHP Liad 2个月前 (11-10) 393℃

这里收集了3种利用php获得网页源代码抓取网页内容的方法，我们可以根据实际需要选用。

1、使用file_get_contents获得网页源代码

这个方法最常用，只需要两行代码即可，非常简单方便。

参考代码：

  $fh= file_get_contents('http://www.webkaka.com/');       
           echo $fh;

2、使用fopen获得网页源代码

这个方法用的人也不少，不过代码有点多。

参考代码：

  $fh = fopen('http://www.webkaka.com/', 'r');       
           if($fh){       
           while(!feof($fh)) {       
           echo fgets($fh);       
           }       
           }

3、使用curl获得网页源代码

使用curl获得网页源代码的做法，往往是需要更高要求的人使用，例如当你需要在抓取网页内容的同时，得到网页header信息，还有ENCODING编码的使用，USERAGENT的使用等等。

参考代码一：

  $ch = curl_init();// 创建一个新cURL资源       
           curl_setopt($ch, CURLOPT_URL, "http://www.webkaka.com/");// 设置URL和相应的选项       
           curl_setopt($ch, CURLOPT_HEADER, false);       
               $data = curl_exec($ch);// 抓取URL并把它传递给浏览器       
           echo $data;//输入结果       
           curl_close($ch);//关闭cURL资源，并且释放系统资源

复制代码

参考代码二：

  $szUrl = "http://www.webkaka.com/";       
           $UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';       
           $curl = curl_init();       
           curl_setopt($curl, CURLOPT_URL, $szUrl);       
           curl_setopt($curl, CURLOPT_HEADER, 0);  //0表示不输出Header，1表示输出       
           curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);       
           curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);       
           curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);       
           curl_setopt($curl, CURLOPT_ENCODING, '');       
           curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);       
           curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);       
           $data = curl_exec($curl);       
           echo $data;       
           //echo curl_errno($curl); //返回0时表示程序执行成功 如何从curl_errno返回值获取错误信息       
           exit();

上例里使用了几个curl_setopt()参数的定义，HEADER、ENCODING、USERAGENT等，可以参考这里http://cn2.php.net/curl_setopt查看更多参数及用途。

需要注意的是，在使用curl_init()之前，你需要做下php.ini的安全设置，否则该函数不能执行

PHP获取网页内容的方法

继续阅读

第三章 Joomla!扩展开发--后端开发（续2）

Centos 7 Apache配置虚拟主机

PHP进阶学习之session写入数据库

php写一个简洁的登录页面

Apache与PHP环境下配置本地虚拟主机

Testlink安装部署之XAMPP

TestLink 图表中文乱码问题

ecshop属性排序

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

版本号隐藏

Apache配置SSLApache配置SSL

配置apache支持PHP（win7）

Cloud Studio初体验

NOSQL安全攻击

php 去掉字符串的最后一个字符及截取原字符串1,2,3,4,5,6,

php——水印