Tag: 百度预览模式: 普通 | 列表

百度观察期内的网站不要随便动!

 昨天刚恢复了几十页,晚上做了301重定向,今天site又成了0了,杯具。
去掉301重定向,又有一点收录了,变化真快。

Tags: 百度

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2209

这个伪造蜘蛛IP121.14.212.93有点搞笑

同时伪装百度蜘蛛和谷歌蜘蛛。
实际并不搞笑,一个很低级的防止网站阻止抓取的方法。原因是很多网站阻止抓取的方法也很低级>_<
121.14.212.93 Mozilla/4.0+(compatible;++Baiduspider/2.0;
++http://www.baidu.com/search/spider.html
++Googlebot/2.1;++http://www.google.com/bot.html) 200 0 0
是个私服网站IP。服务器IP位于广东省中山市。

是为了防止有些网站通过简单的包含判断是不是蜘蛛。

Tags: 百度

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3141

百度蜘蛛真假分析

61.135.162.* 61.135.162.* 代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛
61.135.165.134百度竞价蜘蛛北京联通
61.135.168.* 抓取图片的百度蜘蛛
61.135.186.* (百度联盟爬虫),说白了就是百度统计
119.63.196.9 百度竞价蜘蛛
121.10.141.* 114站长工具箱(这个是你的网站不稳定时常来的)
121.14.89.* 这个ip段作为度过新站考察期(很少来)
123.15.**.** 百度图片爬虫
123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛
123.125.68.* 表示网站要进入沙盒了,或被者降权,百度沙盒蜘蛛,
123.125.71.* 抓取内页收录的,权重较低,(百度网页爬虫(百度图片爬虫)
124.248.34.52 搜外站长工具蜘蛛
125.39.78.185 百度竞价蜘蛛天津联通
125.90.88.* 广东茂名市电信也属于百度蜘蛛IP,站长工具工具ip,没有多大用
159.226.50.* 百度蜘蛛
180.76.5.* 百度蜘蛛北京联通
180.76.5.87 百度蜘蛛北京电信
180.149.130.* 伪装百度蜘蛛IP
203.208.60.* 这个ip段出现在新站及站点有不正常现象后。
210.72.225.* 这个ip段不间断巡逻各站,就是路过一下
220.181.68.* 每天这个IP 段只增不减很有可能进沙盒或K站。
220.181.7.* 代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛
220.181.108.* 专用抓取首页IP 权重段,一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。
220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,
220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来
220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)属于权重IP段此段爬过的文章或首页基本24小时放出来
220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的
220.181.158.107百度蜘蛛
222.77.187.33 该ip为站长站友链检测伪蜘蛛IP位于福建省福州市

Tags: 百度

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2835

跟百度学写Robots.txt

搜索主站:
http://www.baidu.com/robots.txt

禁止所有搜索引擎抓取,特别列出了几个主要的引擎:谷歌、搜搜、搜狗、百度、MSN、即刻、百度图片

最后禁止所有:
User-agent: *
Disallow: /

百度知道:
http://zhidao.baidu.com/robots.txt

查看更多...

Tags: 百度

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2200

新发现一个百度蜘蛛IP段180.76.5.137

经过部分测试该IP段应该都是属于百度蜘蛛,但百度里面没有人讨论,不知道是不是百度新启用的IP。
180.76.5.1
180.76.5.2
180.76.5.3
180.76.5.4
180.76.5.5
180.76.5.6
180.76.5.7
180.76.5.8
180.76.5.9
180.76.5.10
180.76.5.11
180.76.5.12
180.76.5.13
180.76.5.14
180.76.5.15
180.76.5.16
180.76.5.17
180.76.5.18
180.76.5.19
180.76.5.20
180.76.5.21
180.76.5.22
180.76.5.23
180.76.5.24
180.76.5.25
180.76.5.26
180.76.5.27
180.76.5.28
180.76.5.29
180.76.5.30
180.76.5.31
180.76.5.32
180.76.5.33
180.76.5.34
180.76.5.35
180.76.5.36
180.76.5.37
180.76.5.38
180.76.5.39
180.76.5.40
180.76.5.41
180.76.5.42
180.76.5.43
180.76.5.44
180.76.5.45
180.76.5.46
180.76.5.47
180.76.5.48
180.76.5.49
180.76.5.50
180.76.5.51
180.76.5.52
180.76.5.53
180.76.5.54
180.76.5.55
180.76.5.56
180.76.5.57
180.76.5.58
180.76.5.59
180.76.5.60
180.76.5.61
180.76.5.62
180.76.5.63
180.76.5.64
180.76.5.65
180.76.5.66
180.76.5.67
180.76.5.68
180.76.5.69
180.76.5.70
180.76.5.71
180.76.5.72
180.76.5.73
180.76.5.74
180.76.5.75
180.76.5.76
180.76.5.77
180.76.5.78
180.76.5.79
180.76.5.80
180.76.5.81
180.76.5.82
180.76.5.83
180.76.5.84
180.76.5.85
180.76.5.86
180.76.5.87
180.76.5.88
180.76.5.89
180.76.5.90
180.76.5.91
180.76.5.92
180.76.5.93
180.76.5.94
180.76.5.95
180.76.5.96
180.76.5.97
180.76.5.98
180.76.5.99
180.76.5.100
180.76.5.101
180.76.5.102
180.76.5.103
180.76.5.104
180.76.5.105
180.76.5.106
180.76.5.107
180.76.5.108
180.76.5.109
180.76.5.110
180.76.5.111
180.76.5.112
180.76.5.113
180.76.5.114
180.76.5.115
180.76.5.116
180.76.5.117
180.76.5.118
180.76.5.119
180.76.5.120
180.76.5.121
180.76.5.122
180.76.5.123
180.76.5.124
180.76.5.125
180.76.5.126
180.76.5.127
180.76.5.128
180.76.5.129
180.76.5.130
180.76.5.131
180.76.5.132
180.76.5.133
180.76.5.134
180.76.5.135
180.76.5.136
180.76.5.137
180.76.5.138
180.76.5.139
180.76.5.140
180.76.5.141
180.76.5.142
180.76.5.143
180.76.5.144
180.76.5.145
180.76.5.146
180.76.5.147
180.76.5.148
180.76.5.149
180.76.5.150
180.76.5.151
180.76.5.152
180.76.5.153
180.76.5.154
180.76.5.155
180.76.5.156
180.76.5.157
180.76.5.158
180.76.5.159
180.76.5.160
180.76.5.161
180.76.5.162
180.76.5.163
180.76.5.164
180.76.5.165
180.76.5.166
180.76.5.167
180.76.5.168
180.76.5.169
180.76.5.170
180.76.5.171
180.76.5.172
180.76.5.173
180.76.5.174
180.76.5.175
180.76.5.176
180.76.5.177
180.76.5.178
180.76.5.179
180.76.5.180
180.76.5.181
180.76.5.182
180.76.5.183
180.76.5.184
180.76.5.185
180.76.5.186
180.76.5.187
180.76.5.188
180.76.5.189
180.76.5.190
180.76.5.191
180.76.5.192
180.76.5.193
180.76.5.194
180.76.5.195
180.76.5.196
180.76.5.197
180.76.5.198
180.76.5.199
180.76.5.200
180.76.5.201
180.76.5.202
180.76.5.203
180.76.5.204
180.76.5.205
180.76.5.206
180.76.5.207
180.76.5.208
180.76.5.209
180.76.5.210
180.76.5.211
180.76.5.212
180.76.5.213
180.76.5.214
180.76.5.215
180.76.5.216
180.76.5.217
180.76.5.218
180.76.5.219
180.76.5.220
180.76.5.221
180.76.5.222
180.76.5.223
180.76.5.224
180.76.5.225
180.76.5.226
180.76.5.227
180.76.5.228
180.76.5.229
180.76.5.230
180.76.5.231
180.76.5.232
180.76.5.233
180.76.5.234
180.76.5.235
180.76.5.236
180.76.5.237
180.76.5.238
180.76.5.239
180.76.5.240
180.76.5.241
180.76.5.242
180.76.5.243
180.76.5.244
180.76.5.245
180.76.5.246
180.76.5.247
180.76.5.248
180.76.5.249
180.76.5.250
180.76.5.251
180.76.5.252
180.76.5.253
180.76.5.254

顺便发一个批量生成上面的列表的小工具:点击下载此文件

Tags: 百度

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3135

今天220.181.108.95和180.76.5.91来访了

不再仅仅是令人懊恼的123.125.*.*了,希望这是个好兆头。虽然咱不靠百度吃饭,不过怎么说呢。。面子问题。

220.181.108.95 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
180.76.5.91 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0

 

Tags: 百度

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2618

通过蜘蛛IP分析你网站是否被K

通过蜘蛛IP分析你网站是否被K内页是否有被抓取或者网址是否抓取成功。

本文只贡参考让大家对IIS日记各引擎的蜘蛛IP有个更深的了解.以次来断定网站目前的状态情况.下面我们专说百度蜘蛛爬过的每个不一样的IP代表什么!
根据不同的IP我们可以分析网站是个怎样的状态.下面就按照我IIS日记上的百度蜘蛛IP为例:
123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。
121.14.89.*这个ip段作为度过新站考察期。
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
210.72.225.*这个ip段不间断巡逻各站。
125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。
220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。
123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。
220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!
一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。
好了,今天暂时就简单大致介绍一点吧..你们可以按照以上的IP段来判断自己网站现在是个什么样的了!可以说95%准!
来源:http://wenku.baidu.com/view/f2c027310b4c2e3f572763e3.html

Tags: 百度 seo

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1953

百度蜘蛛Baiduspider名称说明

Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

百度各个产品使用不同的user-agent:

产品名称 对应user-agent
无线搜索 Baiduspider
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
商务搜索 Baiduspider-ads
网页以及其他搜索 Baiduspider

另外还有一种比较特殊的baidu+Transcoder,这个其实不是蜘蛛,是用户通过手机百度访问网站时,百度对网站进行了抓取后转码的工具。

如何判断是否伪造百度蜘蛛?

查看更多...

Tags: 百度

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3134

关于本博客首页的百度收录问题

一个简单的pjblog程序,没有刻意优化,内容大部分都是原创。按照本人经验怎么也不可能被K的,所以100%是被百度人为惩罚了。原因很容易想到,不多说。当然这个博客主要是作为个人的技术备忘录的,所以收录多少无所谓。提醒大家做百度SEO要注意:尽量避开或百度自营内容,避免采集或直接采集百度数据,尽量降低网站域名关联性,包括域名注册信息。。。总之百度是很难搞的,尤其想qj百度更难,即使成功也只能获得一时的快感,要想长期享受只能是做费时费力的正规站。。。

 

Tags: 百度

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2288

不允许百度保存其快照

 快照不被百度缓存:
<meta name="Baiduspider" content="noarchive">
不被所有搜索引擎缓存:
<meta name="ROBOTS" content="noarchive">

Tags: html 百度

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2172

百度自动ping功能javascript和php代码

 百度自动ping功能对SEO有不少帮助,在这收藏一下百度官方页的javascript代码和PHP代码.

百度官方的ping功能javascript代码:

JavaScript代码
  1. <script>  
  2.   
  3.  function pin(url,value){  
  4.   var request = null;  
  5.    try{  
  6.     var request=new XMLHttpRequest();  
  7.    }  
  8.    catch(e){}  
  9.    if(request==nulltry {  
  10.     request = new ActiveXObject(“Microsoft.XMLHTTP”);  
  11.    }catch (e) {}  
  12.    if(request==nulltry {  
  13.     request=new ActiveXObject(“MSXML2.XMLHTTP.3.0″);  
  14.     }catch (e) {}  
  15.    if(request==nulltry {  
  16.    request=new ActiveXObject(“Msxml2.XMLHTTP”);  
  17.    }catch (e) {}  
  18.    
  19.      var values=”<?xml version=\”1.0\”?>\n<methodCall>\n<methodName>weblogUpdates.ping</methodName>\n<params>\n<param>\n<value><string>”+value+”</string></value>\n</param><param><value><string>”+value+”</string></value>\n</param>\n</params>\n</methodCall>”;  
  20.     
  21.   request.onreadystatechange = function(){  
  22.     if (request.readyState == 4) {  
  23.              if (request.status == 200) {  
  24.                    
  25.    document.getElementById(“alert1″).style.display=”none”;  
  26.    document.getElementById(“alert2″).style.display=”inline”;  
  27.    document.getElementById(“alert3″).style.display=”none”;  
  28.      
  29.               }  
  30.               else {  
  31.                  
  32.    document.getElementById(“alert1″).style.display=”none”;  
  33.    document.getElementById(“alert2″).style.display=”none”;  
  34.    document.getElementById(“alert3″).style.display=”inline”;   
  35.      
  36.              }  
  37.           }  
  38.   }  
  39.     
  40.   request.open(“POST”, url);  
  41.   request.setRequestHeader(“Content-Type”, “text/xml”);  
  42.   request.send(values);  
  43.  }  
  44.  function check_form(){  
  45.     
  46.   var sUrl=document.getElementById(“url”);  
  47.     
  48.   if(sUrl.value==”" || sUrl.value==”http://”){  
  49.    document.getElementById(“alert1″).style.display=”inline”;  
  50.    document.getElementById(“alert2″).style.display=”none”;  
  51.    document.getElementById(“alert3″).style.display=”none”;  
  52.   
  53.   }else{  
  54.    pin(“/ping/RPC2″,sUrl.value);   
  55.   }  
  56.  }  
  57. </script>  

PHP代码为:

PHP代码
  1. <?php  
  2. function postUrl($url$postvar)  
  3. {  
  4.     $ch = curl_init();  
  5.     $headers = array(  
  6.         “POST “.$url.” HTTP/1.0″,  
  7.         “Content-type: text/xml; charset=\”utf-8\”",  
  8.         “Accept: text/xml”,  
  9.         “Content-length: “.strlen($postvar)  
  10.     );  
  11.     curl_setopt($ch, CURLOPT_URL, $url);  
  12.     curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);  
  13.     curl_setopt($ch, CURLOPT_POST, 1);  
  14.     curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);  
  15.     curl_setopt($ch, CURLOPT_POSTFIELDS, $postvar);  
  16.     $res = curl_exec ($ch);  
  17.     curl_close ($ch);  
  18.     return $res;  
  19. }  
  20.   
  21. $baiduXML = “<?xml version=\”1.0\” encoding=\”utf-8\”?>  
  22.    <methodCall>  
  23.    <methodName>weblogUpdates.extendedPing</methodName>  
  24.    <params>  
  25.    <param><value><string>$url</string></value></param>  
  26.    <param><value><string>$url</string></value></param>  
  27.    </params>  
  28.    </methodCall>”;  
  29. $res = postUrl(‘http://ping.baidu.com/ping/RPC2′, $baiduXML);  
  30. ?>  

Tags: javascript php 百度

分类:技术文章 | 固定链接 | 评论: 1 | 引用: 0 | 查看次数: 2849

百度关键字采集器v1.2正式发布!


由于视频长度有限,只采集1000多个关键字,理论上可以一直采集下去~

新增加了一些使用的功能,比如导入关键字列表,然后根据关键字列表来扩展采集更多的关键字,这样相关度高,重复率低,可以采集到的关键字数量也大大增加;增加了关键字过滤功能,可以去除一些无用的垃圾关键字,或者选出包含某一特定文字的关键字列表。
为了防止垃圾站泛滥,此版本不提供免费下载,如需购买请联系我(QQ:13327215),价格为100元/套!
注意:本人所出售软件不议价,嫌贵的免开尊口,本人时间有限,恕不伺候!!!

Tags: 百度 seo

分类:我的作品 | 固定链接 | 评论: 3 | 引用: 0 | 查看次数: 6079

 广告位

↑返回顶部↑