垂直搜索

昨天的〔搜索引擎沙龙〕一共来了12位朋友,其中有一多半是做搜索引擎和相关研究的。

讨论的主要话题集中在以下几个:
1.垂直搜索的意义
2.垂直搜索的赢利模式是否强壮
3.垂直搜索的万能模版是否存在,如何实现
4.信息的分类

垂直搜索的核心技术实际上就是智能spider的技术,也就是说如何将定向或者非定向的网页抓取下来进行分析后得到格式化数据的技术。

垂直搜索一般情况下爬虫分3种模式:
1.broad search的基础上对信息进行分类挑选组织。
2.定向爬虫获取信息,配上手工或者自动的模版,将信息进行格式化分析入库。
3.目标网站提供特殊的数据源的接口,利用这些数据进行再加工。

现在绝大多数的垂直搜索都是基于2来实施的,从技术上讲有难度但是能够比第一种方案提供更加精确的信息,例如包括价格,时间,描述,规格等。

这次真正意义上的搜索引擎沙龙参加的人如下:
猎头合连横的老板John Zhang,博客网的冯磊,张博文,卢亮,猎兔分词的罗刚,百搜网的吴萌野,邓子陵,易观国际的饶展,G宝盘的陈新,微软亚洲研究院的陈凯江,和一个做垂直搜索的蔡文凯。



[本日志由 admin 于 2007-06-03 08:25 PM 编辑]
上一篇: 搜索引擎spam的防止
下一篇: RSS网络爬虫的时间规则
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 搜索引擎研究
相关日志:
评论: 0 | 引用: 0 | 查看次数: 2957
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑