浅谈垂直搜索引擎

  通过关键字:"垂直搜索引擎"在google查一下,在返回结果中可以看到不少的投资公司很看好这一领域,即使百度的发言人也在演讲中提到垂直搜索引擎,而一些国外软件巨头例如Google和Microsoft也在这一领域有所动作,据说Microsoft的一个研究购物的小组最近就推出了一个购物垂直搜索引擎,


        首先,谈谈垂直搜索引擎的基本原理,垂直搜索引擎针对某个特定领域,招聘、购物、blog、新闻等方面都是垂直搜索的潜在领域,假想一下,如果网络上有非常便利的产品垂直搜索引擎、新闻垂直搜索平台,以后上网就不会漫无目的了,现在许多的行业门户做的很红火,而垂直搜索引擎的模式本身就是一种很好的门户网站.


        接下来谈谈垂直搜索引擎的技术,垂直搜索引擎技术同信息采集技术有一些共同点,不同的是,信息采集主要是将采集的信息导入本地库,而垂直搜索引擎主要是以网页的形式展现给用户,通用搜索引擎主要是利用一个spider程序到网络上爬行,一般是某个特定的周期派出一次将网页更新,垂直搜索引擎同样应有一个spider程序,但该程序只在一些特定的网络上爬行,并不会对每一个链接都感兴趣,相对来说,垂直搜索引擎的收录范围大大缩小了,但并不意味着内容的缩小,通用搜索引擎对一些动态脚本是不敏感的,例如***asp?id=***之类的网页一般不被收录,而恰恰是这类动态网页包含了丰富的内容,垂直搜索引擎是必须收录这些动态脚本的,这就需要在技术上做一些特殊处理,另外由于目前网页中的链接形式非常多,不但有动态脚本也有flash做的链接,这些链接方式通过传统的spider程序是很难解析出来的,在垂直搜索引擎中也应该解决.


        以上只是垂直搜索引擎的简单说明,如果需要深入了解甚至实际开发,建议按如下步骤深入学习:
1) 到搜索引擎中查一下垂直搜索引擎,进一步了解垂直搜索引擎的应用前景
2) 如果要实际开发一个垂直搜索引擎,建议到一些开源网站上找一些spider程序进行分析,看看如何改造成一个垂直搜索的spider,一般将爬行全部链接的方式改为只爬行特定链接.这些特定链接可以通过正则表达式的方式来匹配,凡不符合匹配的不进行采集.



上一篇: 垂直搜索相关问题
下一篇: 知己知彼,百战不殆!
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 垂直搜索
相关日志:
评论: 0 | 引用: 0 | 查看次数: 3265
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑