Tag: 搜索引擎研究预览模式: 普通 | 列表

中文搜索引擎蜘蛛大全

搜索引擎 蜘蛛名称
百度 baiduspider
谷歌 googlebot
搜狗 Sogou+web+spider
Bing bingbot
搜搜 Sosospider
360 360Spider
Msn msnbot
即刻 JikeSpider
有道 YoudaoBot
雅虎中文 Yahoo!+Slurp+China

欢迎补充。

Tags: 搜索引擎研究

分类:随笔杂记 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2806

[私密日志] 私密日志

该日志是私密日志,只有博主或发布者可以查看!
分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2091

网页自动分类引擎

对于搜索引擎来说,能够自动的识别网页的类别还不够,因为一个网页的类别往往不是单独的,而是在不同的分类基础上有不同的分类结果,本文在这里再次给出信噪比这个概念:

信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键:


网页信噪比(Significant)

一个网页针对不懂的搜索词有一个信噪比的概念,信噪比Significant的定义如下:
Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb)
Ns为被搜索词出现的次数,Nb是背景项,是指总共这个网页里包含的词汇量。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3278

博客搜索引擎逐渐成为一个趋势

博客(Blog)搜索引擎相对与以往的搜索引擎相比有几个明显的优势:

1] 博客的分类机制比较稳定,这是因为一般的blogger都将自己的blog分成了几个类别,那么这样基本上在用户进行发文章的同时已经进行了最基本的筛选,相对类别就比较容易计算。

2] 博客的世界里常常关心的是最新的最具有有意思的一些新闻的突发的时间,而这些又是大家进入搜索引擎寻找乐趣的目的之一。

3] blog的维护者经常更新网页,这样就会使得一个网站的死网页的个数少,有利于爬虫的效率。

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3206

新闻搜索引擎不过搜索引擎的一类,预期说开发新闻搜索引擎,如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。

既然没有“新闻爬虫”这个概念,我就将其定义为“News Crawl”,这个News Crawl与以往的爬虫和蜘蛛有什么不同?难度何在?有和意义?

1] 新闻爬虫是机器爬虫,仍然是按照以往的爬虫程序进行运行,但是不同之处如下:
只爬固定的新闻站点,或者某个站点的某一个 directory 下。这样确保新闻的来源
爬虫对新闻站点进行分类/权重的计算是 机器+人工 参与的
爬虫对新闻的抓取要频繁的多
爬虫要对新闻网页里面的垃圾(噪音,例如广告,无用的联接)信息能够精确的处理。

2] 以往的爬虫是一股脑的抓取,而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3622

平移算法简介

在开发新闻搜索引擎的时候,出现一个问题就是有很多的新闻属于转载的形式,要判断新闻是否转载,经过实验,我发现可以用“平移”算法来实现。

"平移算法"非常简单易用,就是比较两个文章/字串中最高的重叠率和平均重叠的长度。
例如我们有两个文章的标题:

"报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"
http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml

"权威机构调查显示中国ip视频通信应用早于西方_搜狐it"
http://it.sohu.com/20041201/n223268718.shtml

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2636

Larbin 一种高效的搜索引擎爬虫工具

离开dallas已经整整十天了,基本上除了到处见见人之外基本上没有其它的时间来学习新知识,也没有空将要完成的工作收尾。

Niu.la ,Booso,luliang.dhs.org 和 wespoke 相继宕机,看来年底各个地方的维护都不力。

itseek的开发者多次问起 larbin 的事情,我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工作效率。

1]larbin的简介
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3060

计算机文本分类和模糊聚类

机器人新闻的Beta版本:机器新闻中心,因为没有更多的时间开发,暂时收集大家意见和建议,等月底再继续开发。

1.
什么是分类?
分类就是将一片文章/文本自动的识别出来,按照先验的类别进行匹配,确定。
什么是聚类?
聚类就是将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。
什么是模糊聚类?
模糊聚类就是没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等都是不确定因素。

我这里给出来的例子,例如:


[enternews]::主张:看清楚男人的货色_tom生活
有个总强调自己是名门之后的女人写过一篇文章,叫作《男人分两截》,认为男人的“上半截是修养,下半截是本质”。并且,如果“下半截没戏,上半截也肯定好不到哪儿去”。通常大家都认为男人可以完全把性和爱分开,其实未必,渡边淳一就说过:“男人的性行为其实是很精神性的。”虽然男人不幸被这个女人下了屠刀,劈成两截,但是我想在如今多数女人的眼中,男人是不是应当分两截?哪截和哪截不一样?这些并不是很重要。 ... News from:life.news.tom.com news.sdinfo.net news.sohu.com www.chinanews.com.cn
相关的内容一共有 10 条

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2817

再说机器新闻的分类和聚类

Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。

想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的新闻做的越来越好,我这边的一些想法正在着手实现的时候,Google新闻总是非常意料之中的做到了。


我记得我第一次看到Google新闻首页出现这样的标题错误时,心里在想,Google并不难超越么,因此立此存照,保留了快照,4个月后,Google的新闻的准确度和灵活性已经完全不可同日而语了。

1] 个人新闻门户
改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。

2] 定制+搜索
Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3561

马太效应:搜索引擎暗规则之一

搜索引擎暗规则序

中国人有句古话叫做:“学以至用”。若干年我一直对这句话封为神灵,因为只用致用才能看到学的效果,了解到学的不足,享受到学的快乐。

搜索引擎在过去两年的发展并没有大突破,但是却逐步走向成熟,走向商业。正是这两年的时间,部分的业余时间都用来做一些开发和研究,当我逐渐了解的更多的时候,也是我结束单枪披马的时候。未来的兴趣也许会转向分类技术,因此希望能够用这个系列为这段成长岁月化上句号。

所谓暗规则,其实就是一些生活中非常显然的规则,只不过在搜索引擎这个领域表现的不是那么的突出,之所以不够突出,原因最主要的是因为搜索引擎还在发展,市场还在进一步加剧竞争,这些暗规则或多或少已经在反映在现在的搜索引擎上了。相信有一天,这些规则会被看到的更清晰,更深入。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2527

20 80 法则:搜索引擎暗规则之二

20/80法则也叫二八定律,即巴莱多定律。巴莱多定律是19世纪末20世纪初意大利经济学家巴莱多发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。

在搜索引擎的设计上,可以说大多数的搜索引擎在搜索结果上第一页有80%的结果是相同的,不同的只有20%。可是正是这20% make different.

这20%的差别也是不同搜索引擎之间的差距,能够完善这20%将对一个搜索引擎来说是至关重要的。

在另外一方面,对于一个搜索引擎的完善,例如你可以花20%的努力做到80%的效果,而要想提高剩下的20%的效果也许要耗费80%的精力。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2610

破窗理论:搜索引擎暗规则之三

车东在Google的“破窗”里提到Spam会传播更多的Spam,这个就是搜索引擎破窗效应的体现。

首先解释一下什么是破窗理论:

"破窗理论"体现的是细节对人的暗示效果,以及细节对整体影响的扩展性

  美国心理学家詹巴斗曾经做过一个"偷车实验 ",将两辆一模一样的轿车分别放在一个环境很好的中产阶级社区和环境比较脏乱的贫民区,结果发现贫民区的车很快被偷走了,而另一辆几天后仍然完好无损;如果将中产阶级社区的那辆车的天窗玻璃打破,几个小时后,那辆车也被偷了。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2715

 广告位

↑返回顶部↑