Tag: file_get_contents预览模式: 普通 | 列表

Php伪造搜索引擎蜘蛛进行采集

$ctx = stream_context_create(array(
'http' => array(
'timeout' => 5,
'header'=>"User-Agent: Baiduspider+(+http://www.baidu.com/search/spider.htm)\r\n" .
// "Cookie: foo=bar\r\n"
// 'HTTP_REFERER' =>'http://ww.com/index.php',
// 'User-Agent' =>'jongin'
)
)
);
$rs = file_get_contents('http://test.com/test.php', 0, $ctx);


经过分析日志和对比表明和蜘蛛除了ip不同外,是一模一样的...
先了解一下PHP file_get_contents() 函数
定义和用法
file_get_contents() 函数把整个文件读入一个字符串中。
和 file() 一样,不同的是 file_get_contents() 把文件读入一个字符串。
file_get_contents() 函数是用于将文件的内容读入到一个字符串中的首选方法。如果操作系统支持,还会使用内存映射技术来增强性能。
语法
file_get_contents(path,include_path,context,start,max_length)参数 描述
path 必需。规定要读取的文件。
include_path 可选。如果也想在 include_path 中搜寻文件的话,可以将该参数设为 "1"。
context 可选。规定文件句柄的环境。
context 是一套可以修改流的行为的选项。若使用 null,则忽略。
start 可选。规定在文件中开始读取的位置。该参数是 PHP 5.1 新加的。
max_length 可选。规定读取的字节数。该参数是 PHP 5.1 新加的。
说明
对 context 的支持是 PHP 5.0.0 添加的。
针对超时或页面过慢,一般可采取两个解决方案:
1. 利用file_get_contents()第三个参数
PHP代码

<?php
$url = "http://www.1bo8.cn/zhoz.php";
$ctx = stream_context_create(array(
'http' => array('timeout' => 10)
)
);
$result = @<b style="color:black;background-color:#ffff66">file_get_contents</b>($url, 0, $ctx);
if($result){
var_dump($result);
}else{
echo " Buffer is empty";
}
?>
此方法1,我经测试在本地反映良好,但如果在外网测试(环境:中国→美国服务器间)基本都是超时的情况。
测试了TimeOut基本没有用了,建议以下方式。
2. 使用curl扩展库
PHP代码

<?php
$url = "http://www.1bo8.cn/zhoz.php";

try {
echo date('Y-m-d h:i:s');
echo "";
//$buffer = <b style="color:black;background-color:#ffff66">file_get_contents</b>($url);
$buffer = zhoz_get_contents($url);
echo date('Y-m-d h:i:s');
if(emptyempty($buffer)) {
echo " Buffer is empty";
} else {
echo " Buffer is not empty";
}
} catch(Exception $e) {
echo "error ";
}

function zhoz_get_contents($url, $second = 5) {
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_TIMEOUT,$second);
curl_setopt($ch,CURLOPT_RETURNTRANSFER, true);

$content = curl_exec($ch);
curl_close($ch);
return $content;
}
?>
综述,根据系统环境来选择到底应用哪种方法:
PHP代码

<?php
function vita_get_url_content($url) {
if(function_exists('<b style="color:black;background-color:#ffff66">file_get_contents</b>')) {
$file_contents = <b style="color:black;background-color:#ffff66">file_get_contents</b>($url);
} else {
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
}
return $file_contents;
}
?>  

Tags: php file_get_contents

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2626

 广告位

↑返回顶部↑