Tag: 搜索引擎研究预览模式: 普通 | 列表

羊群效应:搜索引擎暗规则之四

“羊群效应”是指管理学上一些企业的市场行为的一种常见现象。例如一个羊群(集体)是一个很散乱的组织,平时大家在一起盲目地左冲右撞。如果一头羊发现了一片肥沃的绿草地,并在那里吃到了新鲜的青草,后来的羊群就会一哄而上,争抢那里的青草,全然不顾旁边虎视眈眈的狼,或者看不到其它还有更好的青草。

羊群效应的出现一般在一个竞争非常激烈的行业上,而且这个行业上有一个领先者(领头羊)占据了主要的注意力,那么整个羊群就会不断摹仿这个领头羊的一举一动,领头羊到哪里去吃草,其它的羊也去哪里淘金。

搜索引擎这个市场上的竞争加剧的情况下,搜索引擎的巨头之间对对手之间的动作非常的注意,一旦一个搜索引擎出现某一个新的功能,或者进入一个新的领域,众多的搜索引擎都会去尝试这个新的“水草地”是否真的肥美,是否真得有利可图。

在搜索引擎行业上,2002年以来Google确立了领头羊的位置,因此这只羊的一举一动都成了大家摹仿的标本:

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2827

Google 为什么不支持Rss

看到不少人发表关于Google为什么不支持Rss的问题和看法,这个问题以前不止一个人问起过我,我坚持的看法是Google在有新的赢利基础替代搜索之前是不会支持Rss的,而且我也没有看出来Google需要支持Rss的必要。「虽然我会去Hack google的服务,使得自己有Rss可用」

因为Rss太简单了,简单到将搜索引擎的门坎到了一种令Google感觉到一种压力的地步。

利用rss,可以简单的绕过搜索引擎里面最复杂的一个环节:HTML parse的过程,而这个过程,是众多小型搜索引擎的门坎和瓶颈,因为Rss提供规整化的结构化的数据,使得搜索引擎数据整理的过程简单了许多。可以想象,如果Google支持Rss,那么等于将这个市场的门坎降低,会导致大量的小型的竞争对手来分享未被蚕食的long tail,Google还不至于傻到这个地步。

为什么MSN和Yahoo会支持Rss呢?

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2742

Google网页加速器的工作原理

最近一直忙着写论文,周末终于有空放松半天时间,到网络上看看,铺天盖地的关于google最新的消息,原来google又出了新玩艺,Google Web Accelerator。

听说很神,特地找了一台Windows电脑准备一试。可是我去google网站下载时却发现google 说用户太多,不提供了。

感谢Owen硬盘里还有保留,终于得到了珍贵的“绝版”Google网页加速器。

我尝试访问了6个网站,并且分析了日志,基本上明确了Google网页加速器的工作原理,其实很简单:Proxy + 缓存。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2889

Google Sitemaps 的意义

格式化网络是一个不可避免的趋势, Google 利用现有的品牌来进行推广他的sitemap (网站更新地图), 是一个google从主动角色到网站为主动角色的变换.

搜索引擎的主动性将由此转嫁到网站主并且"要求,希望"网站主来积极的配合, Don't be Evil 的口号的风险越来越高.

另外的思考:

sitemap 和blog的 rss 又有什么本质的区别呢?

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2667

Google的启示

最近在对现有的搜索引擎进行分布式的改进, 回顾以前阅读过的 google file system 的文章时发现google的思维和我们平时固守的思维很不一样, 可以说很多在我们看来是有一些"偏激"的,可是正是由于这些偏激, 才导致google与其跟随者的不同.

以下为几个例子:

1. google认为, 所有的硬件都是容易产生故障的, 因此google认为故障是必然的, 不产生故障才是偶然现象. 这个想法和我们通常的意识是相反的.

2. Google认为, 一旦写入, 再也不删除和修改. 这点上google认为修改和删除会对系统造成潜在的伤害, 例如文件的不连续性, 文件定位的困难..

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2631

集中/分布式搜索引擎的4种设计方案

对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了.

那么分布式搜索引擎的最主要的核心问题是哪些呢?

1. 分布的信息获取和计算以及对此进行的数据统一
这里面包括爬虫/或者相应的数据获取机制的分布, 对信息进行加工的统一管理

2. 数据处理后的分布存储和管理
主要是文件的准确定位和更新,增加,删除,移动的机制

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3748

RSS网络爬虫的时间规则

RSS的网络爬虫的时间规则的设置:

设定RSS爬虫重新访问的5个级别:

Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes

设定RSS 源的权重为从0到5

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 4121

垂直搜索

昨天的〔搜索引擎沙龙〕一共来了12位朋友,其中有一多半是做搜索引擎和相关研究的。

讨论的主要话题集中在以下几个:
1.垂直搜索的意义
2.垂直搜索的赢利模式是否强壮
3.垂直搜索的万能模版是否存在,如何实现
4.信息的分类

垂直搜索的核心技术实际上就是智能spider的技术,也就是说如何将定向或者非定向的网页抓取下来进行分析后得到格式化数据的技术。

垂直搜索一般情况下爬虫分3种模式:
1.broad search的基础上对信息进行分类挑选组织。
2.定向爬虫获取信息,配上手工或者自动的模版,将信息进行格式化分析入库。
3.目标网站提供特殊的数据源的接口,利用这些数据进行再加工。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2957

搜索引擎spam的防止

spam现在应该是“相当的”严重了,现在搜索引擎的第一页经常成为了spam的专区,已经严重影响了搜索引擎的正常使用和用户对搜索引擎结果的信任。

参加讨论的有好几个相当专业的朋友,我的抛砖引玉总算没有白费,下面整理一些上次讨论的记录。

1. 什么是spam,seo?

2. spam 和 seo 的差别和关系。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2675

信息指纹与消重算法

信息指纹:就是提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。

从理论上讲,每两个不同文本的特征信息是不同的,那么得到的代码也应该是不一样的,就象人的指纹。

搜索引擎在建立索引的时候需要对重复内容的网页进行识别和消重,这就要用到信息指纹。

例如,通常搜索引擎要先对网页进行消噪,就是净化网页,将一些模版类的,无用的广告等剔除调。然后得到预处理后的网页,然后对网页进行向量化处理,简单的讲就是分词,统计,并按照词频生成一个列表。

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2724

相关度计算与信噪比

你知道google和百度两个关键词的相关度是多少么?
--最后我将来回答这个问题

通常我们对于文本信息之间得相关性得计算都是采用向量的办法,我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。

传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。

例子:
文章 A: 谈论的是大学教育,最高频的关键词是:学生[3],学习[2],大学[2]
文章 B: 谈论的是普通教育,最高频的关键词是:教育[5],教师[1],进修[1]
[]里是相对的权重,可以理解成 TF*IDF

查看更多...

Tags: 搜索引擎研究

分类:业界文摘 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2778

 广告位

↑返回顶部↑