业界文摘

新闻搜索引擎的技术分析及google news的对照

作者:admin 日期:2007-06-03

字体大小: 小中大

新闻搜索引擎不过搜索引擎的一类，预期说开发新闻搜索引擎，如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。

既然没有“新闻爬虫”这个概念，我就将其定义为“News Crawl”，这个News Crawl与以往的爬虫和蜘蛛有什么不同？难度何在？有和意义？

1] 新闻爬虫是机器爬虫，仍然是按照以往的爬虫程序进行运行，但是不同之处如下：
只爬固定的新闻站点，或者某个站点的某一个 directory 下。这样确保新闻的来源
爬虫对新闻站点进行分类／权重的计算是机器＋人工参与的
爬虫对新闻的抓取要频繁的多
爬虫要对新闻网页里面的垃圾（噪音，例如广告，无用的联接）信息能够精确的处理。

2] 以往的爬虫是一股脑的抓取，而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。

3] 以往的新闻网站，例如新浪，搜狐，都是进行人工编辑，无论在人力上和时间上都有大量的浪费和延迟，因此新闻爬虫的好处不言而愉，就象有无数的机器编辑在帮网站进行浏览，提取，寻找新闻，当然新闻来源要快的多而且剩力得多了。

可惜的是，AI(人工智能)发展到今天，连一个网页的摘要都不能产生，因此在一定程度上看来还仍然需要人工的参与。

上一篇: 平移算法简介

下一篇: 博客搜索引擎逐渐成为一个趋势

文章来自: 本站原创

引用通告: 查看所有引用 | 我要引用此文章

Tags: 搜索引擎研究

相关日志:

评论: 0 | 引用: 0 | 查看次数: 3621

发表评论

昵　称:	记住我的信息
密　码:	游客发言不需要密码.
邮　箱:	邮件地址支持Gravatar头像,邮箱地址不会公开.
网　址:	输入网址便于回访.
内　容:	正在加载编辑器...
验证码:	点击获取验证码
选　项:	禁止表情转换禁止自动转换链接禁止自动转换关键字

虽然发表评论不用注册，但是为了保护您的发言权，建议您注册帐号. 字数限制 1000 字 \| UBB代码开启 \| [img]标签关闭