中文搜索引擎蜘蛛大全
作者:admin 日期:2012-11-24
网页自动分类引擎
作者:admin 日期:2007-06-03
博客搜索引擎逐渐成为一个趋势
作者:admin 日期:2007-06-03
新闻搜索引擎的技术分析及google news的对照
作者:admin 日期:2007-06-03
新闻搜索引擎不过搜索引擎的一类,预期说开发新闻搜索引擎,如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。
既然没有“新闻爬虫”这个概念,我就将其定义为“News Crawl”,这个News Crawl与以往的爬虫和蜘蛛有什么不同?难度何在?有和意义?
1] 新闻爬虫是机器爬虫,仍然是按照以往的爬虫程序进行运行,但是不同之处如下:
只爬固定的新闻站点,或者某个站点的某一个 directory 下。这样确保新闻的来源
爬虫对新闻站点进行分类/权重的计算是 机器+人工 参与的
爬虫对新闻的抓取要频繁的多
爬虫要对新闻网页里面的垃圾(噪音,例如广告,无用的联接)信息能够精确的处理。
2] 以往的爬虫是一股脑的抓取,而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。
平移算法简介
作者:admin 日期:2007-06-03
在开发新闻搜索引擎的时候,出现一个问题就是有很多的新闻属于转载的形式,要判断新闻是否转载,经过实验,我发现可以用“平移”算法来实现。
"平移算法"非常简单易用,就是比较两个文章/字串中最高的重叠率和平均重叠的长度。
例如我们有两个文章的标题:
"报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"
http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml
"权威机构调查显示中国ip视频通信应用早于西方_搜狐it"
http://it.sohu.com/20041201/n223268718.shtml
Larbin 一种高效的搜索引擎爬虫工具
作者:admin 日期:2007-06-03
离开dallas已经整整十天了,基本上除了到处见见人之外基本上没有其它的时间来学习新知识,也没有空将要完成的工作收尾。
Niu.la ,Booso,luliang.dhs.org 和 wespoke 相继宕机,看来年底各个地方的维护都不力。
itseek的开发者多次问起 larbin 的事情,我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工作效率。
1]larbin的简介
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
计算机文本分类和模糊聚类
作者:admin 日期:2007-06-03
机器人新闻的Beta版本:机器新闻中心,因为没有更多的时间开发,暂时收集大家意见和建议,等月底再继续开发。
1.
什么是分类?
分类就是将一片文章/文本自动的识别出来,按照先验的类别进行匹配,确定。
什么是聚类?
聚类就是将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。
什么是模糊聚类?
模糊聚类就是没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等都是不确定因素。
我这里给出来的例子,例如:
[enternews]::主张:看清楚男人的货色_tom生活
有个总强调自己是名门之后的女人写过一篇文章,叫作《男人分两截》,认为男人的“上半截是修养,下半截是本质”。并且,如果“下半截没戏,上半截也肯定好不到哪儿去”。通常大家都认为男人可以完全把性和爱分开,其实未必,渡边淳一就说过:“男人的性行为其实是很精神性的。”虽然男人不幸被这个女人下了屠刀,劈成两截,但是我想在如今多数女人的眼中,男人是不是应当分两截?哪截和哪截不一样?这些并不是很重要。 ... News from:life.news.tom.com news.sdinfo.net news.sohu.com www.chinanews.com.cn
相关的内容一共有 10 条
再说机器新闻的分类和聚类
作者:admin 日期:2007-06-03
Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。
想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的新闻做的越来越好,我这边的一些想法正在着手实现的时候,Google新闻总是非常意料之中的做到了。
我记得我第一次看到Google新闻首页出现这样的标题错误时,心里在想,Google并不难超越么,因此立此存照,保留了快照,4个月后,Google的新闻的准确度和灵活性已经完全不可同日而语了。
1] 个人新闻门户
改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。
2] 定制+搜索
Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。
马太效应:搜索引擎暗规则之一
作者:admin 日期:2007-06-03
搜索引擎暗规则序
中国人有句古话叫做:“学以至用”。若干年我一直对这句话封为神灵,因为只用致用才能看到学的效果,了解到学的不足,享受到学的快乐。
搜索引擎在过去两年的发展并没有大突破,但是却逐步走向成熟,走向商业。正是这两年的时间,部分的业余时间都用来做一些开发和研究,当我逐渐了解的更多的时候,也是我结束单枪披马的时候。未来的兴趣也许会转向分类技术,因此希望能够用这个系列为这段成长岁月化上句号。
所谓暗规则,其实就是一些生活中非常显然的规则,只不过在搜索引擎这个领域表现的不是那么的突出,之所以不够突出,原因最主要的是因为搜索引擎还在发展,市场还在进一步加剧竞争,这些暗规则或多或少已经在反映在现在的搜索引擎上了。相信有一天,这些规则会被看到的更清晰,更深入。
20 80 法则:搜索引擎暗规则之二
作者:admin 日期:2007-06-03
20/80法则也叫二八定律,即巴莱多定律。巴莱多定律是19世纪末20世纪初意大利经济学家巴莱多发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。
在搜索引擎的设计上,可以说大多数的搜索引擎在搜索结果上第一页有80%的结果是相同的,不同的只有20%。可是正是这20% make different.
这20%的差别也是不同搜索引擎之间的差距,能够完善这20%将对一个搜索引擎来说是至关重要的。
在另外一方面,对于一个搜索引擎的完善,例如你可以花20%的努力做到80%的效果,而要想提高剩下的20%的效果也许要耗费80%的精力。
破窗理论:搜索引擎暗规则之三
作者:admin 日期:2007-06-03
广告位