中文搜索引擎蜘蛛大全

作者:admin 日期:2012-11-24

搜索引擎	蜘蛛名称
百度	baiduspider
谷歌	googlebot
搜狗	Sogou+web+spider
Bing	bingbot
搜搜	Sosospider
360	360Spider
Msn	msnbot
即刻	JikeSpider
有道	YoudaoBot
雅虎中文	Yahoo!+Slurp+China

欢迎补充。

Tags: 搜索引擎研究

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2806

[私密日志]

作者:admin 日期:2010-09-20

该日志是私密日志，只有博主或发布者可以查看！

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2091

网页自动分类引擎

作者:admin 日期:2007-06-03

对于搜索引擎来说，能够自动的识别网页的类别还不够，因为一个网页的类别往往不是单独的，而是在不同的分类基础上有不同的分类结果，本文在这里再次给出信噪比这个概念：

信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键：

网页信噪比（Significant）

一个网页针对不懂的搜索词有一个信噪比的概念，信噪比Significant的定义如下：
Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb)
Ns为被搜索词出现的次数，Nb是背景项，是指总共这个网页里包含的词汇量。

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3278

博客搜索引擎逐渐成为一个趋势

作者:admin 日期:2007-06-03

博客(Blog)搜索引擎相对与以往的搜索引擎相比有几个明显的优势:

1] 博客的分类机制比较稳定，这是因为一般的blogger都将自己的blog分成了几个类别，那么这样基本上在用户进行发文章的同时已经进行了最基本的筛选，相对类别就比较容易计算。

2] 博客的世界里常常关心的是最新的最具有有意思的一些新闻的突发的时间，而这些又是大家进入搜索引擎寻找乐趣的目的之一。

3] blog的维护者经常更新网页，这样就会使得一个网站的死网页的个数少，有利于爬虫的效率。

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3206

新闻搜索引擎的技术分析及google news的对照

作者:admin 日期:2007-06-03

新闻搜索引擎不过搜索引擎的一类，预期说开发新闻搜索引擎，如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。

既然没有“新闻爬虫”这个概念，我就将其定义为“News Crawl”，这个News Crawl与以往的爬虫和蜘蛛有什么不同？难度何在？有和意义？

1] 新闻爬虫是机器爬虫，仍然是按照以往的爬虫程序进行运行，但是不同之处如下：
只爬固定的新闻站点，或者某个站点的某一个 directory 下。这样确保新闻的来源
爬虫对新闻站点进行分类／权重的计算是机器＋人工参与的
爬虫对新闻的抓取要频繁的多
爬虫要对新闻网页里面的垃圾（噪音，例如广告，无用的联接）信息能够精确的处理。

2] 以往的爬虫是一股脑的抓取，而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3622

平移算法简介

作者:admin 日期:2007-06-03

在开发新闻搜索引擎的时候，出现一个问题就是有很多的新闻属于转载的形式，要判断新闻是否转载，经过实验，我发现可以用“平移”算法来实现。

"平移算法"非常简单易用，就是比较两个文章／字串中最高的重叠率和平均重叠的长度。
例如我们有两个文章的标题：

"报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"
http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml

"权威机构调查显示中国ip视频通信应用早于西方_搜狐it"
http://it.sohu.com/20041201/n223268718.shtml

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2636

Larbin 一种高效的搜索引擎爬虫工具

作者:admin 日期:2007-06-03

离开dallas已经整整十天了，基本上除了到处见见人之外基本上没有其它的时间来学习新知识，也没有空将要完成的工作收尾。

Niu.la ，Booso，luliang.dhs.org 和 wespoke 相继宕机，看来年底各个地方的维护都不力。

itseek的开发者多次问起 larbin 的事情，我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲，larbin具有高度的可配置性，和良好的工作效率。

１］larbin的简介
larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3060

计算机文本分类和模糊聚类

作者:admin 日期:2007-06-03

机器人新闻的Beta版本：机器新闻中心，因为没有更多的时间开发，暂时收集大家意见和建议，等月底再继续开发。

1.
什么是分类？
分类就是将一片文章／文本自动的识别出来，按照先验的类别进行匹配，确定。
什么是聚类？
聚类就是将一组的文章／文本／信息进行相识性的比较，将比较相识的文章／文本／信息归为同一组的技术。
什么是模糊聚类？
模糊聚类就是没有先验的聚类因子，完全按照算法来进行识别和类大小，类的多少，类的误差等都是不确定因素。

我这里给出来的例子，例如：

[enternews]::主张：看清楚男人的货色_tom生活
有个总强调自己是名门之后的女人写过一篇文章，叫作《男人分两截》，认为男人的“上半截是修养，下半截是本质”。并且，如果“下半截没戏，上半截也肯定好不到哪儿去”。通常大家都认为男人可以完全把性和爱分开，其实未必，渡边淳一就说过：“男人的性行为其实是很精神性的。”虽然男人不幸被这个女人下了屠刀，劈成两截，但是我想在如今多数女人的眼中，男人是不是应当分两截？哪截和哪截不一样？这些并不是很重要。 ... News from:life.news.tom.com news.sdinfo.net news.sohu.com www.chinanews.com.cn
相关的内容一共有 10 条

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2817

再说机器新闻的分类和聚类

作者:admin 日期:2007-06-03

Google 新闻改版了，把我想实现的最关键的一部分实现了，没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。

想法和技术在与同竞争对手的面前都不是关键，关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3，4个月了，一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差，而且关于新闻内容的摘要常常也是文不对题，可是就是在这样的磕磕绊绊中google的新闻做的越来越好，我这边的一些想法正在着手实现的时候，Google新闻总是非常意料之中的做到了。

我记得我第一次看到Google新闻首页出现这样的标题错误时，心里在想，Google并不难超越么，因此立此存照，保留了快照，4个月后，Google的新闻的准确度和灵活性已经完全不可同日而语了。

1] 个人新闻门户
改变以往的千人一面的新闻门户是机器新闻的目标，我几个月不上新浪的原因是我不想打开一个有90％内容我不关心的新闻网站。我会看些我订阅的Rss，例如Klog，Keso，Mao等，我这样偷懒的原因是简单的，因为这些人可以进行先期的过滤，将好的新闻／信息已经收集了起来，而降低个人获取信息的难度。

2] 定制＋搜索
Google不提供Rss是完全可以离解的，因为Rss实在是把现有的搜索引擎，新闻聚合系统的技术难点降低到了极限，而这些在传统技术中都是Google的长处，Google是一个网络机器，它说实际并不喜欢用户离线的活动。但是，Google的定制和搜索加Email后也是我每天必修课，原因也是我只关心我订阅的一些内容，而这种直接送到google邮箱的做法，仍然是提高Google的粘合力的一种非常有效的做法。

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3561